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内 容 简 介 


本 书面 向 所 有 对 机 器 学 习 与 数据 挖掘 的 实践 及 竞赛 感 兴趣 的 读者 ,从 零 开 始 , 以 Python 编程 语言 为 基础 ,在 不 涉及 大 
量 数 学 模型 与 复杂 编程 知识 的 前 提 下 ,逐步 带领 读者 熟悉 并 且 掌 握 当 下 最 流行 的 机 器 学 习 、 数 据 挖 据 与 自然 语言 处 理工 
具 , 如 Scikit-learn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow 等 。 
全 书 共 分 4 章 。 第 1 章 简介 篇 ,介绍 机 器 学 习 概 念 与 Python 编程 知识 ;第 2 章 基础 篇 ,讲述 如 何 使 用 Scikit-learn 作为 
基础 机 器 学 习 工 具 ; 第 3 章 进 阶 篇 ,涉及 怎样 借助 高 级 技术 或 者 模型 进一步 提升 既 有 机 器 学 习 系 统 的 性 能 ;第 4 章 竞赛 篇 ， 
以 Kaggle 平 台 为 对 象 ,帮助 读者 一 步 步 使 用 本 书 介 绍 过 的 模型 和 技巧 ,完成 三 项 具有 代表 性 的 竞赛 任务 。 
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中 国 工程 院 院士 ,中 国 科 学 院 电工 研究 所 研究员、 博士 生 导 师 


从 书 顾问 ( 按 姓名 拼音 排序 ) 


EX PEME 
黄 X 
= gH 
E 
# BY 


Boe AS Bi) My Tv EE FR 48 BR Zn] 3C .北京 创 客 空间 科技 有 限 公 司 副 董事 长 
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清华 大 学 xlab 互联 网 与 信息 技术 创新 中 心 执行 主管 兼 培育 顾问 

河北 省 高 等 院 校 计算 机 教育 研究 会 理事 长 

《现代 教育 技术 》 杂 志 副 主编 .清华 大 学 创 客 教育 实验 室 Co-director 

创新 知识 体系 创始 人 、 海 洪 区 创业 园 企 业 家 训练 营 总 裁 实战 导师 
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北京 航空 航天 大 学 软件 学 院 副 院 长 .教授 

中 国人 工 管 能 学 会 秘书 长 

清华 大 数据 产业 联合 会 秘书 长 

清华 阳光 科技 有 限 公 司 总 裁 

清华 大 学 机 械 工 程 系 副教授 、 博 士 生 导 师 ,中国 绿色 制造 技术 标准 化 技术 委 
员 会 委员 兼 副 秘书 长 .中国 机 械 制 造 工 艺 协会 篆 务 理事 
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> > >> 出 版 说 明 


在 产业 升级 急需 、 区 域 发 展 呼 叶 、 国 家 政策 引导 、 社 会 与 论 支 持 、 成 功 者 亲身 鼓励 等 多 
方 的 推动 下 “大 众 创新 .万众 创业 ?已 成 为 一 股 年 轻 人 普遍 关注 和 参与 的 热潮 。“ 大 众 创 
业 \ 万 众 创新 ”作为 创新 驱动 发 展 战略 的 最 主要 实施 方案 ,有 效 改 善 了 我 国 就 业 困难 、 行 业 
升级 效率 低下 等 局 面 。 

变化 .颠覆 、 创 新 早已 成 为 我 们 这 个 时 代 的 主旋律 ,这 是 我 们 酝酿 这 套 丛 书 的 背景 。 

创新 的 关键 在 于 人 才 培 养 。2015 年 11 月 底 , 教 育 部 下 发 了 《教育 部 关于 做 好 2016 
届 全 国 普 通 高 等 学 校 毕业 生 就 业 创 业 工 作 的 通知 》, 通 知 规定 ,从 2016 年 起 所 有 高 校 都 要 
设置 创意 创新 创业 教育 课程 ,对 全 体 学 生 开 发 开设 创意 创新 创业 教育 (以 下 简称 三 创 教 
育 ) 必 修 课 和 选修 课 ,并 纳入 学 分 管理 。 对 有 创业 意愿 的 学 生 ,开设 创业 指导 及 实 训 类 课 
程 ,对 已 经 开展 创业 实践 的 学 生 ,开展 企业 经 营 管理 类 培训 。 各 地 各 高 校 要 配 齐 配 强 创意 
创新 创业 教育 专职 教师 ,建立 以 课堂 教学 为 主 渠 道 ,讲座 .论坛 .培训 为 补充 的 多 形式 就 业 
指导 课程 体系 。 

强调 突破 和 实践 的 三 创 教育 正式 成 为 国家 创新 驱动 战略 及 人 才 培 养 计 划 的 重要 组 成 
部 分 ,这 是 我 们 策划 这 套 丛 书 的 契机 。 

中 关 村 汇聚 了 中 国 最 顶级 高 校 ,无 论 是 知识 技术、 人才 的 优质 及 密集 程度 ,还 是 知识 
性 企业 企业 专利 .创业 项 目 及 创业 服务 机 构 的 数量 及 质量 , 均 处 于 全 国 领 先 的 地 位 ;可 以 
说 ,中 关 村 早已 积累 了 深厚 的 创新 文化 和 实践 经 验 。 而 北京 市 海 注 区 的 各 个 高 校 ,也 近 水 

f; ,在 师资 和 课程 `, 学 业 评价 、 校 企 合作 等 多 个 维度 对 创意 创新 创业 教育 已 经 展开 了 有 

益 的 探索 和 尝试 。 这 是 这 套 丛 书 诞 生 和 成 长 的 土壤 。 

于 是 ,我们 立足 于 中 关 村 的 知识 资源 和 创业 实践 ,整合 多 方 资源 , 广 邀 优质 活跃 的 创 
业 导 师 、 三 创 组 织 . 孵 化 器 等 ,和 教育 出 版 机 构 ,成 立 了 ”中关村 融 智 三 创 丛书 工作 室 ”, 硕 
望 通过 非 急 利 机 构 的 形式 ,助力 高 校 需求 驱动 型 人 才 培 养 。 我们 计划 创造 性 地 撰写 一 套 
通 识 性 的 三 创 丛 书 , 以 跨 学 科 的 主题 学 习 和 任务 驱动 形式 ,路 专业 地 服务 于 三 创 起 航 教 
B ,并 将 同步 策划 基于 互联 网 和 社交 媒体 的 一 体 化 新 型 教学 模式 及 资源 服务 ,我 们 诚挚 硕 
望 创 意 创新 创业 教育 能 在 中 国生 长 出 内 生 力 量 ,真正 形成 气候 ,实现 繁荣 ,实现 创新 驱动 。 

丛书 遵循 教学 与 创业 的 规律 进展 ,从 有 意 启 发 学 生 创 意 及 创新 思维 开始 ,引导 高 校 学 
生 思 考 为 什么 要 创意 创新 创业 “我 ?适合 什么 样 的 行业 及 发 展 道路 ,直至 给 出 具体 的 创业 
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方法 论 及 实战 指导 。 因 此 ,从 书 将 首先 策划 和 编写 涉及 三 创 方 面 的 用 于 实现 创意 、 文 撑 创 
新 的 实用 前 沿 技术 类 和 技能 类 书籍 ,为 三 创 教育 夯实 “ 便 实力 ”。 在 由 浅 入 深 组 织 从 书 所 
写 的 同时 ,考虑 到 各 个 领域 专业 化 门槛 较 高 ,市 场 需 求 、 政 策 导 问 、 学 校 师 次 力度 不 一 ,我 
们 同时 还 兼顾 了 不 同行 业 的 特点 ,力争 覆盖 新 兴 行 业 及 国家 重点 发 展 的 领域 ,如 互联 网 、 
新 能 源 、 汽 车 等 。 

此 外 ,丛书 还 将 策划 另外 两 大 类 书籍 : 一 类 将 涵盖 创业 启程 相关 的 商业 模式 设计 、 产 
品 营 销 、 团 队 创建 与 维持 、 投 融资 、 产 品 运 营 管理 \ 法 规 体 从、 知识 产权 策略 、 沟 通 与 表达 等 
众多 技术 和 技能 之 外 的 方面 , 即 服务 于 三 创 的 “ 软 实力 ”; 男 一 类 还 将 从 国际 国内 一 流 融 
校 、 创 客 空间 .孵化 硕 及 知名 产业 园区 的 创意 、 创 新 `. 创 业 及 投资 经 历 中 筛选 出 众多 生动 鲜 
活 的 经 典 案例 ,提供 综合 全 面 的 “好 案例 ”。 

本 套 从 书 具 有 开放 性 强 、 通 识 全 面 、 面 咎 实践 ,行业 案例 新 人 鲜 直 是 的 特点 。 正 如 它 所 
服务 的 主题 ,这 套 从 书本 号 就 是 一 个 三 创 教育 的 探索 。 翻 开 顾 问 名 单 会 发 现 ,顾问 中 既 有 
德高望重 的 院士 ,也 有 富有 产业 园区 建设 经 验 的 官员 , 既 有 创业 成 功 的 企业 家 ,还 有 不 断 
探索 三 创 教 育 的 学 者 一 一 我 们 希望 这 套 从 书 成 为 教育 家 、 人 研究 者 企业 家 、 投 资方 .创业 者 
等 多 方 合作 的 载体 ,营造 一 个 充满 活力 、 民 性 互动 、 可 持续 发 展 的 教育 生态 系统 ,全 方位 地 
为 高 校 教 师 、 学 生 、 创 客 空 间 、 创 新 创业 团队 提供 权威 性 、 高 品质 的 三 创 教育 服务 ;我 们 也 
希望 这 套 从 书 的 出 版 ,不 仅 能 够 填补 全 国 2800 余 所 高 等 院 校 所 面临 的 急迫 巨大 的 教材 缺 
口 ,更 能 为 高 校 创新 创业 教育 体系 的 建立 和 完善 .创业 实践 指导 、 产 学 人 研 转化 等 略 尽 绵薄 
<3 « 

最 后 ,感谢 海淀 园 管 委 会 和 清华 大 学 出 版 社 的 领导 们 ,他们 在 本 套 丛 书 的 策划 LE 
编辑 出 版 的 过 程 中 提供 了 大 量 带 助 。 由 于 创意 创新 创业 主题 宏大 , 瞬 肯 万 变 ,本 套 从 书 难 
免 存在 疏漏 不 足 , 有 待 今后 进一步 补充 和 完善 ,恳请 读者 批评 指正 。 如 有 读者 愿意 分 享 更 
精彩 的 理念 或 案例 ,也 欢迎 联系 。 


中 关 村 融 智 三 创 丛 书 工作 室 
2016 年 9 月 


过 去 近 二 十 年 ,计算 机 科学 的 发 展 是 被 大 量 的 数据 推动 的 。 海 量 数据 提供 了 认识 
世界 的 新 视角 ,同时 也 带 来 了 分 析 和 理解 数据 的 巨大 挑战 。 如 何 从 数据 中 获得 知识 ,并 
利用 这 些 知识 帮助 设计 和 创造 更 满足 用 户 需求 的 产品 ,希望 将 来 自 新 的 人 工 智能 算法 。 
大 数据 的 核心 思想 体现 在 整个 工业 流程 中 从 决策 到 执行 数据 的 重要 性 ,其 重要 性 的 发 
挥 依赖 于 现代 计算 方法 一 一 机 器 学 习 。 机 器 学 习 可 以 利用 数据 做 很 多 决策 ,这 些 在 统 
计 意 义 上 都 是 好 的 决策 ,比如 要 不 要 把 这 首 歌 推荐 给 那个 用 户 。 更 惊奇 的 是 当 数 据 足 
够 大 ,计算 能 力 足 够 强 , 机 器 也 可 以 学 得 比 人 更 好 。 清 华 大 学 范 狐 和 李 超 的 新 著 ( Python 
机 器 学 习 及 实践 》 很 契合 实际 ,从 零 开 始 介绍 简单 的 Python 语法 以 及 如 何 用 Python 语言 
来 构建 机 器 学 习 的 模型 。 每 一 个 章节 环 环 相 扣 ,配合 代码 样 例 ,非常 适合 希望 了 解 机 器 
学 习 领 域 的 初学 者 ,甚至 没有 编程 基础 的 学 生 。 大 数据 要 求 机 器 学 习 应 该 更 普及 ,而 普 
及 的 途径 则 是 降低 相关 工具 的 使 用 难度 。 和 希望 看 到 这 本 新 书 能 推动 机 器 学 习 的 普及 。 

-一 今日 头条 实验 室 科学 家 , 前 百度 美国 深度 学 习 实 验 室 少 帅 科学 家 FR 


这 是 一 本 面向 机 器 学 习 实 践 并 且 具 有 很 强 实用 性 的 好 书 。 每 个 章节 ,在 简要 介绍 
一 种 机 器 学 习 模 型 的 基础 上 ,结合 具体 的 例子 ,给 出 了 详细 的 Python 程序 的 编程 方法 ， 
有 利于 读者 对 机 器 学 习 方 法 细节 的 掌握 。 跟 随 本 书 ,读者 将 一 步 步 跨 入 机 器 学 习 的 殿 
萌 , 学 握 用 机 器 学 习 方法 求解 实际 问题 的 技能 。 本 书 适合 于 想 使 用 机 器 学 习 方法 求解 
实际 问题 的 博士 生 、 硕 士 生 、 高 年 级 本 科 生 ,以 及 在 企业 工作 的 工程 技术 人 员 阅 读 , 是 一 
本 快速 掌握 机 器 学 习 方 法 求解 实际 问题 的 入 门 读物 ,相信 读者 将 从 本 书 中 获 益 匪 浅 。 

一 清华 大 学 计算 机 系 教授 马 少 平 


D 按照 推荐 人 的 姓名 拼音 排序 。 


: VL: Pyhao 机 器 学 习 及 实 中 


机 器 学 习 是 专门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ,以 获取 新 的 知识 或 
技能 ,重新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 性 能 的 一 门 学 科 , 也 是 当前 科研 机 构 
及 企业 开展 应 用 研究 的 热点 之 一 。 随 着 “互联 网 + "概念 在 中 国 的 提出 ,科研 及 工程 技 
术 人 员 人 迫切 需要 将 机 器 学 习 技 术 与 互联 网 技术 结合 起 来 ,把 互联 网 与 机 器 学 习 技 术 应 
用 到 人 类 生活 中 。 但 机 器 学 习作 为 一 门 技 术 , 具 有 一 定 的 门槛 ,如 何 提 供 一 本 通俗 易 
懂 、 快 速 入 门 的 技术 书籍 ,让 在 职 科 技 人 员 及 在 校 学 生 能 够 尽快 熟悉 机 器 学 习 的 内 容 ， 
理解 机 器 学 习 的 含义 及 本 质 , 是 需要 尽快 解决 的 问题 。 

本 书 前 两 部 分 采用 通俗 的 语言 ,借助 于 现实 生活 的 例子 及 开源 库 包 ,介绍 了 机 器 学 
习 的 基本 概念 及 开源 库 包 的 安装 、 使 用 和 编程 调用 方法 ,通过 实例 展现 了 使 用 经 典 算法 
模型 的 分 析 过 程 及 思考 问题 的 方法 。 第 三 及 第 四 部 分 介绍 了 在 解决 实际 问题 时 如 何 通 
过 抽取 或 者 筛选 数据 特征 、 优 化 模型 配置 ,进一步 提升 经 典 模型 的 性 能 表现 ,从 而 达到 
能 够 将 机 器 学 习 的 经 典 算法 应 用 到 解决 现实 问题 的 目的 。 

尽管 目前 市 场 上 关于 机 器 学 习 的 书籍 很 多 ,但 很 少 具 有 能 够 将 开发 语言 及 机 器 学 
习 理 论 紧 密 结合 ,利用 开源 技术 ,采用 类 似 “ 实 训 " 方 式 进行 实践 教学 的 书籍 。 而 本 书 的 
作者 根据 自己 的 学 习 经 历 及 学 习 过 程 的 体会 ,把 自己 的 学 习 经 验 充分 融入 书本 之 中 , 采 
用 由 浅 入 深 的 方法 ,结合 机 器 学 习 的 内 容 , 把 算法 学 习 的 每 一 步 都 给 读者 以 详细 展现 ， 
减少 了 学 生 的 学 习 难 度 ,加快 了 学 生 学 习 的 进度 ,是 一 本 适合 在 校 学 生 及 工程 技术 人 员 
在 机 器 学 习 方面 快速 入 门 的 指导 书 。 

一 北京 邮电 大 学 软件 学 院 教 授 , 教研 中 心 主任 Rit 


人 工 智能 的 发 展 日 新 月 异 ,机 器 学 习 的 应 用 如 火 如 茶 。 在 这 个 变革 的 时 代 , 大 众 特 
别 需要 一 本 既 能 帮助 读者 理解 机 器 学 习 理 论 , 又 能 让 人 快速 上 手 实践 的 入 门 级 图 书 。 
这 是 一 本 侧重 于 Bthm 机 器 学 习 具 体 实践 与 实战 的 入 门 级 好 书 。 不同 于 多 数 专业 性 的 
书籍 ,该 书 拥 有 更 低 的 阅读 门槛 。 即 便 不 是 计算 机 科学 技术 专业 出 身 的 读者 ,也 可 以 跟 
随 本 书 借助 基本 的 Python 编程 ,快速 上 手 最 新 并 且 最 有 效 的 机 器 学 习 模型 。 作 为 在 一 
线 从 事 机 器 学 习 理 论 与 技术 的 研发 人 员 ,该 书 的 作者 整合 了 当下 数据 科学 所 使 用 的 最 
为 流行 的 资源 ,如 Saktleam、Pandas、XGBoost 和 Tensorflow 等 ,一步 步 带 领 读者 从 零 基础 快 
速成 长 为 一 位 能 够 独立 分 析 数 据 并 且 参 与 机 器 学 习 竞赛 的 兴趣 爱好 者 。 同 时 ,这 本 书 
的 作者 记录 下 大 量 在 机 器 学 习 实 践 过 程 中 的 心得 体会 。 全 书 深入 浅 出 ,让 人 在 实践 中 
获得 知识 。 
一 香港 科技 大 学 计算 机 与 工程 系 讲座 教授 , 系 主任 , IEEEAAA Fellow, 
国际 人 工 智能 协会 (UA, AAA ) 常务 理事 , 中 国人 工 智能 协会 副 理事 ， 
ACM KOD China AM 数 据 挖掘 委员 会 中 国 分 会 主席 杨 强 ， 


机 器 学 习 的 每 一 次 进步 带动 了 很 多 学 科 的 大 力 发 展 。 这 是 一 本 由 在 读 博 士 生 扎 


写 , 侧 重 于 Bthm 机 器 学 习 具 体 实践 和 实战 的 入 门 级 教科 书 。 不 同 于 多 数 专 业 书籍 ,该 
书 的 作者 从 初学 者 的 视角 ,一 步 步 带领 读者 从 零 基础 快速 成 长 为 一 位 能 够 独立 进行 数 
据 分 析 并 且 参 与 机 器 学 习 竞赛 的 兴趣 爱好 者 。 全 书 深入 浅 出 ,特别 是 有 意 了 解 机 器 学 
习 , 又 不 想 被 复杂 的 数学 理论 困扰 的 读者 ,可 会 从 此 书 中 获 益 。 

一 苏州 大 学 计算 机 科学 与 技术 学 院 副 院 长 , 人 类 语言 技术 研究 所 所 长 ， 


特聘 教授 , 国家 杰出 青年 科学 基金 获得 者 KR 


不 同 于 多 数 专 业 性 的 书籍 ,该 书 拥 有 更 低 的 阅读 门槛 。 即 便 不 是 计算 机 科学 技术 


专业 出 身 的 读者 ,也 可 以 跟随 本 书 借 助 Python 编程 快速 上 手 最 新 并 且 最 有 效 的 机 器 学 
习 模 型 。 如 果 说 机 器 学 习 会 主导 信息 产业 的 下 一 波浪 潮 , 那 么 在 这 波浪 潮 来 临 之 前 ,我 
们 是 否 有 必要 对 其 一 帘 究 况 。 我 很 高 兴 看 到 有 这 样 一 本 零 基础 实战 的 好 书 服务 广大 读 
者 ,为 普及 这 一 潮流 尽 绵 薄 之 力 。 就 像 过 去 几 十 年 间 我 们 不 懈 普及 计算 机 与 互联 网 一 
样 , 人 工 智能 ,特别 是 机 器 学 习 的 核心 思想 也 应 该 走出 象牙 塔 ,拥抱 普罗 大 众 , 尽 可 能 让 
更 多 的 兴趣 爱好 者 参与 到 实践 当中 。 


一 清华 大 学 语音 和 语言 技术 中 心 主任 , 教授 BA 


这 是 一 本 讲解 利用 Python 进行 机 器 学 习 实 战 的 入 门 级 好 书 。 该 书市 领 刚 入 门 的 读 

者 ,从 零 开 始 ,一 步 步 学 习 数 据 分 析 并 掌握 机 器 学 习 竞 赛 技能 。 如 果 你 想 学 习 机 器 学 习 

方法 又 不 想 被 复杂 的 数学 理论 所 困扰 ,相信 你 会 从 本 书 中 获 益 。 该 书 适合 于 从 事 机 器 
学 习 研 究 和 应 用 的 在 校生 和 科研 工作 者 。 

-一 微软 研究 院 首席 研究 员 , 自然 语言 处 理 资 深 专 家 周明 


致 广大 读者 : 

欢迎 各 位 购 半 和 阅读 (Python 机 器 学 习 及 实践 》!1 

本 书 的 编写 旨 在 帮助 大 量 对 机 器 学 习 和 数据 挖掘 应 用 感 兴趣 的 读者 朋友 ,整合 并 实 
践 时 下 最 流行 的 基于 Python 语言 的 程序 库 , 如 Scikit-learn、 Pandas, NLTK, gensim, 
XGBoost、Tensorflow 等 ;针对 现实 中 的 科研 问题 ,甚至 是 Kaggle 苋 赛 (当前 世界 最 流行 
的 机 器 学 习 竞 赛 平台 ) 中 的 分 析 任 务 ,快速 搭建 有 效 的 机 器 学 习 系 统 。 

读者 在 阅读 了 几 个 章节 之 后 ,就 会 发 现 这 本 书 的 特别 之 处 。 作 者 力求 减少 读者 对 编 
程 技 能 和 数学 知识 的 过 分 依赖 ,进而 降低 理解 本 书 与 实践 机 器 学 习 模 型 的 门槛 ;并 试图 让 
更 多 的 兴趣 爱好 者 体会 到 使 用 经 典 模型 ,乃至 更 加 高 效 的 方法 解决 实际 问题 的 乐趣 。 同 
时 ,作者 对 书 中 每 一 处 的 关键 术语 都 提供 了 标准 的 英文 表述 ,也 方便 读者 快速 查阅 和 理解 
相关 的 英文 文献 。 

由 于 本 书 不 涉及 对 大 量 数 学 模型 和 复杂 编程 知识 的 讲解 ,因此 受众 非常 广泛 。 这 其 
中 就 包括 : 在 互联 网 IT 相关 领域 从 事 机 器 学 习 和 数据 挖掘 相关 任务 的 研发 人 员 ; 于 高 
校 就 读 的 博士 、 硕 士 研 究 生 ,甚至 是 对 计算 机 编程 有 初步 了 解 的 本 科 生 ;以 及 对 机 器 学 习 
与 数据 挖掘 竞赛 感 兴趣 的 计算 机 业余 爱好 者 等 。 

感激 父母 长 久 以 来 对 我 的 关爱 。 也 非常 感谢 我 在 清华 大 学 和 纽约 大 学 的 导师 们 : XD 
方 、 周 强 以 及 Ralph Grishman 教授 ,对 于 我 利用 业余 时 间 编 写本 书 的 理解 和 支持 。 特 别 
致谢 纽约 大 学 的 Emma Zhu 同学 ,在 我 写 书 期 间 所 给 予 计算 设备 的 帮助 。 最 后 ,感谢 中 
国 国家 留学 基金 委 为 本 人 在 美国 留学 期 间 所 提供 的 生活 资助 。 

最 后 ,衷心 地 希望 各 位 读者 朋友 能 够 从 本 书 获 益 ,同时 这 也 是 对 我 最 大 的 鼓励 和 支 
持 。 人 全书 代码 下 载 地 址 为 : http://pan. baidu. com/s/1bGp15G。 对 于 书 中 的 错误 ,欢迎 
大 家 批评 指正 ,并 发 送 至 电邮 : fanmiao. cslt. thu@ gmail. com。 我 们 会 在 本 书 的 勘误 网 站 


: X : PUB URS 


https://coding. net/u/fanmiao thu/p/Python ML and Kaggle/topic 上 记录 下 您 的 重 
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本 章 介绍 机 器 学 习 的 基本 理论 和 必要 的 编程 准备 。 首 先 , 借 由 美国 卡 内 基 梅 隆 大 学 
(Carnegie Mellon University) 著 名 教授 Tom Mitchell 对 机 器 学 习 (Machine Learning) 的 
经 典 定 义 , 在 “1.1 机 器 学 习 综 述 ” 节 中 进行 阐述 ,并 力求 通俗 易 懂 。 然 后 以 " 良 / 恶 性 乳腺 
癌 肿 瘤 预测 ?问题 为 实例 , 回 读 者 朋友 更 加 细致 地 放 析 机 需 学 习 理 论 中 的 关键 概念 。 而 
后 ,在 “1. 2 Python 编程 库 ” 节 中 解释 之 所 以 选择 Python 搭建 机 器 学 习 平 台 的 原因 和 优 
势 ,同时 为 读者 朋友 推介 一 系列 用 于 快速 搭建 机 器 学 习 系 统 的 Python 编程 库 , 并 且 这 些 
编程 库 都 会 在 本 书 的 后 续 章 节 中 详 加 讨论 。“1.3 Python 环境 配置 ? 节 将 一 步 步 教会 大 
家 如 何在 最 常见 的 两 大 PC 操作 系统 平台 (Windows 和 Mac OS) 上 配置 所 需 的 编程 环 
境 , 包 括 如 何 架 设 Python 2. x 解释 器 环境 和 所 需 的 编程 库 等 。 最 后 ,利用 配置 好 的 编程 
环境 ,在 “1.4 Python 编程 基础 ” 节 中 ,我 们 要 问 读 者 朋友 提供 这 门 当 下 最 流行 的 计算 机 
编程 语言 的 编程 规范 和 基本 要 素 讲 解 ,目的 在 于 方便 各 位 理解 和 进一步 实践 本 书后 续 的 
代码 。 


y 11 机 器 学 习 综 述 


机 器 学 习 是 一 门 既 "古老 2 又 新兴? 的 计算 机 科学 技术 ,隶属 于 人 工 智 能 (Artificial 
Intelligence) WR 53 v HH f] — 4 4T 3x . 

早 在 计算 机 发 明之 初 , 一 些 科 学 家 就 开始 构想 拥有 一 台 可 以 具备 人 类 智慧 的 机 器 。 
这 其 中 就 包括 计算 机 结构 理论 的 先驱 .人 工 智 能 之 父 艾 伦 . 麦 席 森 .图 灵 (Alan 
Mathison Turing ) 。 RE 1950 年 发 表 的 论文 《计算 机 器 与 智能 》(Computing 
Machinery and Intelligence) 中 中 提出 了 具有 开创 意义 的 “图 灵 测 试 ”(Turing Test) ,用 
来 判断 一 台 计 算 机 是 否 达 到 具备 人 工 智 能 的 标准 。 我 们 将 有 关 描 述 “ 图 灵 测 试 ” 的 原文 节 
选 如 下 : 


:2 :Pro 机 可 学 习 有 实 路 S 
The new form of the problem can be described in terms of a game which we 
call the" imitation game”. It is played with three people, a man (A), a woman 
(B). and an interrogator (C) who may be of either sex. The interrogator sta ys 
in a room apart front the other two. The object of the game for the interrogator 
is to determine which of the other two is the man and which is the woman. 
We now ask the question, "What will happen when a machine takes the part 
of A in this game?" Will the interrogator decide wrongly as often when the 
game is played like this as he does when the game is played between a man and a 


woman? These questions replace our original, "Can machines think ?" 


这 段 英文 原文 的 意思 概括 来 讲 就 是 :“ 如 果 通 过 问答 这 种 


方式 ,我 们 已 经 无 法 区 分 对 话 那 端 到 底 是 机 器 还 是 人 类 ,那么 加 e 
就 可 以 说 这 样 的 机 器 已 经 具备 人 工 智 能 .”, 如 图 1-1 所 示 。 尽 Í! Q 
管 仍然 有 一 些 科学 家 并 不 完全 赞同 这 种 测试 标准 ;但 是 不 得 不 ^ Š 


承认 ,在 计算 机 刚刚 发 明 不 到 10 年 的 时 间 里 ,图 灵 能 够 具有 这 
种 前 瞻 性 的 构想 ,甚至 为 我 们 提供 了 用 来 测试 人 工 智 能 的 蓝 
图 ,是 极为 难能可贵 的 。 

而 机 妖 学 习 , 作 为 人 工 智 能 的 分 文 , 从 20 世纪 50 年 代 开 
始 , 也 历经 了 几 次 具有 标志 性 的 事件 ,这 其 中 包括 : 1959 年 , 美 
国 的 前 IBM B TRZ K C Arthur Samuel) 开 发 了 一 个 西洋 棋 Bll 图 灵 测试 
程序 。 这 个 程序 可 以 在 与 人 类 模 手 对 弈 的 过 程 中 ,不 断 改善 上 
己 的 模 艺 。 在 4 年 之 后 ,这 个 程序 战胜 了 设计 者 本 人 ;并 且 又 过 了 3 年 ,战胜 了 美国 一 位 
保持 8 年 常 胜 不 败 的 专业 棋 手 。1997 年 ,IBM 公司 的 深蓝 (Deep Blue) 超 级 计算 机 在 国 
际 象棋 比赛 中 力克 俄罗斯 (前 苏联 ) 专 业 大 师 卡 斯 帕 罗 夫 (Garry Kimovich Kasparov) ,日 
此 引起 了 全 世界 从 业者 的 瞩目 。 同 样 是 IBM 公司 ,于 2011 年 ,她 的 沃 森 深 度 问 答 系 统 
(Waston DeepQA ) 在 美国 知名 的 百科 知识 问答 电视 节目 (Jeopardy) 中 一 举 击败 多 位 优秀 
的 人 类 选手 成 功 夺 冠 ,又 使 得 我 们 朝 着 达成 “图 灵 测 试 ”* 更 近 了 了 一步。 最 近 的 一 轮 浪 潮 来 
自 于 深度 学 习 (Deep Learning) 的 兴起 ,也 就 是 在 笔者 正在 写 这 本 书 期 间 , 谷 歌 公 司 
DeepMind 研究 团队 正式 宣布 中 其 创造 和 撰写 的 机 器 学 习 程 序 AlphaGo® LA 4: 1 的 总 
比分 击败 了 世界 顶级 围棋 选手 李 世 石 ,见证 了 人 工 智 能 的 极 大 进步 。 

fü E BL as ^r: 2J FIC FE UK ES OR EAE BJ VIE ,他 并 没有 编写 具体 的 程序 告诉 西洋 棋 程 
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(D https://en. wikipedia. org/ wiki/ AlphaGo 


序 如 何 行 棋 。 事 实 上 ,这 也 是 不 可 能 的 。 因 为 下 棋 策 略 干 变 万 化 ,我 们 无 法 通过 编写 完备 
的 ,哪怕 是 固定 的 执行 规程 来 对 战 人 类 棋 手 。 从 寨 综 尔 的 西洋 棋 程 序 ,到 谷歌 的 
AlphaGo, 我 们 可 以 总 结 出 机 器 学 习 系 统 具 备 如 下 特点 : 
。 许多 机 器 学 习 系 统 所 解决 的 都 是 无 法 直接 使 用 固定 规则 或 者 流程 代码 完成 的 问 
题 ,通常 这 类 问题 对 人 类 而 言 却 很 简单 。 比 如 ,计算 机 和 手机 中 的 计算 如 程序 就 
不 属于 具备 智能 的 系统 ,因为 里 面 的 计算 方法 都 有 清楚 而 且 固 定 的 规程 ;但 是 ,如 
果 要 求 一 台 机 需 去 辨别 一 张 相 片 中 都 有 哪些 人 或 者 物体 ,这 对 我 们 人 类 来 讲 非常 
容易 ,然而 机 器 却 非常 难 做 到 。 
° 所 谓 具 备 “ 学 习 ” 能 力 的 程序 都 是 指 它 能 够 不 断 地 从 经 历 和 数据 中 吸取 经 验 教训 ， 
从 而 应 对 未 来 的 预测 任务 。 我 们 习惯 地 把 这 种 对 未 知 的 预测 能 力 叫 做 泛 化 力 
(Generalization) 。 
机 需 学 习 系 统 更 加 诱 人 的 地 方 在 于 , 它 具 备 不 断 改 善 自 身 应 对 具体 任务 的 能 力 。 
我 们 习惯 称 这 种 完成 任务 的 能 力 为 性 能 (Performance)。 塞 缪 尔 的 西洋 棋 程 序 和 
谷歌 的 AlphaGo 都 是 典型 的 借助 过 去 对 弈 的 经 验 或 者 模 谱 ,不 断 提 高 自身 性 能 
OLA J AB. 
尽管 我 们 通过 西洋 棋 程 序 的 例子 总 结 了 一 些 机 器 学 习 系 统 所 具备 的 特性 ,但 是 作者 
仍然 嘉 欢 引述 美国 卡 内 基 梅 隆 大 学 (Carnegie Mellon University) 机 器 学 习 人 研究 领域 的 著 
名 教授 Tom Mitchell 的 经 典 定义 所 来 作为 阐述 机 器 学 习 理 论 的 开篇 : 


A program can be said to learn from experience E with respect to some class 
of tasks T and performance measure P, if its performance at tasks in T. as 


measured by P, improves with experience E. 


FELIS Zi S ACERO IS] VR , I A ACE J NL RI S £8. Edi] PE P: 如 
果 一 个 程序 在 使 用 既 有 的 经 验 (E) 执 行 某 类 任务 (T) 的 过 程 中 被 认定 为 是 "具备 学 习 能 力 
的 ,那么 它 一 定 需要 展现 出 : 利用 现 有 的 经 验 (E) ,不 断 改 善 其 完成 既定 任务 (T) 的 性 能 
(P) 的 特质 。 

下 面 ,我 们 会 对 其 中 的 三 个 关键 术语 : 任务 (Task ) , 2595 (Experience) ,性 能 (Performance) 
逐一 进行 剖析 ,并 将 一 个 " 恨 / 恶 性 乳腺 瘤 肿 瘤 预 测 ? 的 经 典 机 器 学 习 问 题 引 作 开 篇 实例 。 


1.1.1 任务 


机 器 学 习 的 任务 种 类 有 很 多 ,本 书 侧重 于 对 两 类 经 典 的 任务 进行 讲解 与 实践 : 监督 
学 习 (Supervised Learning) 和 无 监督 学 习 (Unsupervised Learning)。 其 中 ,监督 学 习 关 
注 对 事物 未 知 表 现 的 预测 ,一 般 包 括 分 类 问题 (Classification) 和 回归 问题 (Regression ) ; 
无 监督 学 习 则 倾向 于 对 事物 本 身 特 性 的 分 析 , 常 用 的 技术 包括 数据 降 维 (Dimensionality 


第 1 章 简介 篇 3 : 


:_Pyho 机 器 学 习 及 实 中 


Reduction) M R 25 [n] M ( Clustering) f, 

分 类 问题 ,顾名思义 , 便 是 对 其 所 在 的 类 别 进行 预测 。 类 别 既 是 离散 的 ,同时 也 是 预 
先知 道 数量 的 。 比 如 ,根据 一 个 人 的 号 高 .体重 和 三 围 等 数据 ,预测 其 性 别 ; 性 别 不 仅 是 高 
散 的 ( 男 、 女 ), 同 时 也 是 预先 知晓 数量 的 。 或 者 ,根据 一 和 朱 高 尾 花 的 花 狼 、 花 苯 的 长 宽 等 数 
据 , 判 断 其 属于 哪个 高 尾 花 亚 种 ;高 尾 花 亚 种 的 种 类 与 数量 也 满足 离散 和 预先 知晓 这 两 项 
条 件 , 因 此 也 是 一 个 分 类 预测 问题 了 。 

回归 同样 是 预测 问题 ,只 是 预测 的 目标 往往 是 连续 变量 。 比 如 ,根据 房屋 的 面积 、 地 
理 位 置 .建筑 年 代 等 进行 销售 价格 的 预测 ,销售 价格 就 是 一 个 连续 变量 。 

数据 降 维 是 对 事物 的 特性 进行 压缩 和 筛选 ,这 项 任务 相对 比较 抽象 。 如 果 我 们 没有 
特定 的 领域 知识 ,是 无 法 预先 确定 采样 哪些 数据 的 ;而 如 今 , 传 感 设 备 的 采样 成 本 相对 较 
低 ,相反 ,筛选 有 效 信息 的 成 本 更 高 。 比 如 ,在 识别 图 像 中 人 脸 的 任务 中 ,我们 可 以 直接 读 
取 到 图 像 的 像素 信息 。 大 是 直接 使 用 这 些 像素 信息 ,那么 数据 的 维度 会 非常 高 ,特别 是 在 
图 像 分 辨 率 越 来 越 高 的 今天 。 因 此 ,我 们 通常 会 利用 数据 降 维 的 技术 对 图 像 进 行 降 维 , 保 
留 最 具有 区 分 度 的 像素 组 合 。 

聚 类 则 是 依赖 于 数据 的 相似 性 ,把 相似 的 数据 样本 划分 为 一 个 艇 。 不 同 于 分 类 问题 ， 
我 们 在 大 多 数 情况 下 不 会 预先 知道 复 的 数量 和 每 个 复 的 具体 含义 。 现 实生 活 中 ,大 型 电 
子 商 务 网 站 经 和 常 对 用 户 的 信息 和 购买 习惯 进行 聚 类 分 析 , 一 旦 找到 数量 不 菲 并 且 背 景 相 
似 客 户 群 , 便 可 以 针对 他 们 的 兴趣 投放 广告 和 促销 信息 。 

至 此 ,根据 上 面 的 描述 ,读者 朋友 便 可 以 确定 “ 恨 / 恶 性 乳腺 总 肿瘤 预测 ”的 问题 属于 
二 分 类 任务 。 待 预测 的 类 别 分 别 是 恨 性 乳腺 交 肿 瘤 和 恶性 乳腺 总 肿瘤 。 通 第, 我 们 使 用 
离散 的 整数 来 代表 类 别 。 如 表 1-1 所 示 ， 肿 瘤 类 型 ?一 列 列 出 了 肿瘤 的 类 型 : 0 代表 民 性 
肿瘤 ,1 代表 恶性 肿瘤 。 


表 1-1 威斯康星 大 学 乳腺 癌 肿 瘤 部 分 数据 包 


D 拓展 小 贴 士 1: 这 里 同时 也 暴露 出 一 个 分 类 问题 的 缺陷 ,就 是 所 有 需要 预测 的 类 别 都 是 已 知 的 。 如 果 是 新 物种 ,我 们 便 无 法 根据 
现 有 经 验 进行 判断 。 常 见 的 做 法 是 对 数据 样本 的 分 类 表现 打分 ;对 于 没有 满足 赣 值 设 定 的 数据 样本 ,就 需要 对 其 做 进一步 分 析 ,甚至 要 求 


人 工 参与 鉴定 。 


© 拓展 小 贴 士 2: 为 便于 展示 ,这 里 我 们 只 使 用 了 原 数 据 的 一 小 部 分 。 完 整 的 数据 下 载 链接 为 : https://archive. ics. uci. edu/ml/ 


machine-learning-databases/ breast-cancer-wisconsin/ breast-cancer-wisconsin, data 


11.2 经 验 


我 们 习惯 性 地 把 数据 视 作 经 验 ; 事 实 上 ,只 有 那些 对 学 习 任 务 有 用 的 特定 信息 才 会 被 
列 入 考虑 范围 。 而 我 们 通常 把 这 些 反 映 数据 内 在 规律 的 信息 叫做 特征 (Feature)。 比 如 ， 
在 前 面 提 到 的 人 脸 图 像 识 别 任务 中 ,我 们 很 少 直 接 把 图 像 最 原始 的 像素 信息 作为 经 验 交 
给 学 习 系 统 ; 而 是 进一步 通过 降 维 ,甚至 一 些 更 为 复杂 的 数据 处 理 方法 得 到 更 加 有 助 于 人 
脸 识 别 的 轮廓 特征 。 

对 于 监督 学 习 问 题 ,我 们 所 拥有 的 经 验 包 括 特征 和 标记 /目标 (Label/Target) 两 个 部 
分 。 我 们 一 般 用 一 个 特征 向 量 (Feature Vector) 来 描述 一 个 数据 样本 ;标记 /目标 的 表现 
形式 则 取决 于 监督 学 习 的 种 类 。 

无 监督 学 习 问 题 自 然 就 没有 标记 /目标 ,因此 也 无 法 从 事 预 测 任务 , 却 更 加 适合 对 数 
据 结构 的 分 析 。 正 是 这 个 区 别 ,我 们 经 党 可 以 获得 大 量 的 无 监督 数据 ;而 监督 数据 的 标注 
因为 经 向 耗费 大 量 的 时 间 、 金 钱 和 人 力 , 所 以 数据 量 相 对 较 少 。 

另外 ,更 为 重要 的 是 ,除了 标记 /目标 的 表现 形式 存在 离散 .连续 变量 的 区 别 , 从 原始 
数据 到 特征 回 量 转化 的 过 程 中 也 会 遭遇 多 种 数据 类 型 : 类 别 型 (Categorical) 特征 ,数值 
AY (Numerical) 特征 ,甚至 是 缺失 的 数据 (Missing Value) 等 。 实 际 操 作 过 程 中 ,我 们 都 需 
要 把 这 些 特征 转化 为 具体 的 数值 参与 运算 ,这 里 暂 不 过 多 交代 , 当 我 们 在 后 面 的 实例 中 遇 
到 时 会 具体 说 明 。 

在 “ 恨 / 恶 性 乳腺 癌 肿 瘤 预测 ?问题 中 ,如 表 1-1 所 示 , 我 们 所 使 用 的 经 验 有 两 个 维度 
的 特征 2: 肿块 厚度 (Clump Thickness) 和 细胞 尺寸 (Cell Size) ; 除 此 之 外 ,还 有 对 应 肿瘤 
类 型 。 而 且 , 每 一 行 都 是 一 个 独立 的 样本 。 我 们 所 要 做 的 便 是 让 我 们 的 学 习 模 型 从 上 述 
的 经 验 中 习 得 如 何 判 别 和 肿瘤 的 类 型 。 我 们 通 篆 把 这 种 既 有 特征 ,同时 也 带 有 目标 /标记 的 
数据 集 称 作 训练 集 (Training Set) ,用 来 训练 我 们 的 学 习 系 统 。 这 里 我 们 拥有 524 条 独立 
的 用 于 训练 的 乳腺 癌 肿 瘤 样本 数据 。 


1.1.3 性 能 


所 谓 性 能 , 便 是 评价 所 完成 任务 质量 的 指标 。 为 了 评价 学 习 模 型 完成 任务 的 质量 ,我 
们 需要 具备 相同 特征 的 数据 ,并 将 模型 的 预测 结果 同 相 对 应 的 正确 答案 进行 比 对 。 我 们 
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D 拓展 小 贴 士 3: 也 许 读者 会 觉得 好 奇 ,这 里 的 肿块 厚度 和 细胞 尺寸 都 不 像 是 真正 意义 的 数值 ,更 像 是 级 别 的 划分 。 事 实 上 ,的 确 是 
这 样 。 在 大 多 数 情 况 下 ,我 们 都 无 法 使 用 最 原始 的 数据 进行 机 器 学 习 任务 ;更 多 的 需要 我 们 对 数据 进行 预 处 理 , 这 个 话题 后 面 会 谈 到 。 
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称 这 样 的 数据 集 为 测试 集 (Testing Set) 了 。 而 且 更 为 重要 的 是 ,我 们 需要 保证 ,出 现在 测 
试 集中 的 数据 样本 一 定 不 能 被 用 于 模型 训练 。 简 而 言 之 ,训练 集 与 测试 集 之 间 是 彼此 互 
斥 的 。 

对 竺 预测 性 质 的 问题 ,我们 经 党 关注 预测 的 精度 。 上 有 具体 来 讲 : 分 类 问题 ,我 们 要 根据 
预测 正确 类 别 的 百分比 来 评价 其 性 能 ,这 个 指标 通常 被 称 作 准确 性 (Accuracy) ;回归 问题 
则 无 法 使 用 类 似 的 指标 ,我 们 通常 会 衡量 预测 值 与 实际 值 之 间 的 偏差 大 小 2。 以 “ 良 / 恶 
性 乳腺 癌 肿 瘤 预测 ?问题 为 例 ,我 们 使 用 准确 性 作为 衡量 学 习 模 型 /系统 性 能 的 指标 ,并且 
用 于 测试 的 乳腺 瘤 肿瘤 样本 数据 有 175 £. 

前 面 已 经 提 到 过 ,作为 一 个 学 习 系 统 , 其 自身 需要 通过 经 验 , 不 断 表 现 出 改善 性 能 的 
能 力 。 为 了 说 明 这 个 观点 ,我 们 即将 以 " 恨 / 恶 性 乳 腺 癌 肿 瘤 预 测 ? 问 题 为 例 , 回 读者 展示 
这 个 学 习 过 程 。 

首先 ,我 们 观察 一 下 待 测 数据 集中 175 条 肿瘤 样本 在 二 维特 征 空 间 的 分 布 情况 ， 如 
1-2 所 示 。X 代表 恶性 肿瘤 ，O 代表 良性 肿瘤 。 
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图 1-2 和 良 /恶性 乳腺 癌 肿 瘤 测试 集 数据 分 布 ( 见 彩 图 ) 


然后 我 们 随机 初始 化 一 个 二 类 分 类 需 , 这 个 分 类 需 使 用 一 条 直线 来 划分 民 / 恶 性 肿 


D 拓展 小 贴 士 4: 现实 应 用 中 ,我 们 无 法 获知 测试 集 的 正确 答案 。 因 为 那 正 是 需要 通过 学 习 系统 来 预测 结果 的 数据 。 因 此 Kile 
充分 利用 已 知 目标 /标记 的 训练 集 ,并 且 后 面 的 章节 会 交代 具体 的 使 用 方法 。 
© ”拓展 小 贴 士 5: 性 能 评价 指标 因 学 习 任务 而 异 ,具体 的 评价 指标 和 计算 方法 都 会 在 对 应 的 章节 涉及 和 详细 介绍 。 


瘤 。 决 定 这 条 直线 走 回 的 有 两 个 因素 : 直线 的 斜率 和 截 距 。 这 些 被 我 们 统一 称 为 模型 的 
参数 (Parameters) ,也 是 分 类 和 希 需 要 通过 学 习 从 训练 数据 中 得 到 的 。 最 初 ,随机 初始 化 参 
数 的 分 类 需 的 性 能 表现 如 图 1-3 PH AN o 
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图 1-3 随机 参数 下 的 二 类 分 类 器 (黄色 直线 )( 见 彩 图 ) 


随 看 我 们 使 用 一 定量 的 训练 样本 ,分 类 颖 所 表现 的 性 能 有 了 大 幅度 的 提升 ,如 图 1-4 


肿块 厚度 
图 1-4 使 用 10 条 训练 样本 得 到 的 二 类 分 类 器 (绿色 直线 )( 见 彩 图 ) 
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与 图 1-5 所 示 , 当 学 习 10 条 训练 样本 时 ,分 类 器 的 性 能 改进 一 些 ,测试 集 上 的 分 类 准确 性 
为 86.9% ;继续 学 习 所 有 训练 样本 之 后 ,分 类 器 的 性 能 进一步 提升 ,在 测试 集 上 的 分 类 准 
确 性 最 终 达 到 93.7%, 
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肿块 厚度 
1-5 ”使 用 所 有 训练 样本 得 到 的 二 类 分 类 器 ( 蓝 色 直线 )( 见 彩 图 ) 


Zx E ,我 们 通过 一 个 现实 生活 中 的 例子 ,加 广大 读者 详细 阐释 了 一 个 学 习 系 统 的 关键 
组 成 部 分 。 在 后 续 的 草 节 中 ,还 会 有 更 多 有 趣 而 实用 的 项 目 等 待 者 大 家 。 


X — T ,我 们 需要 回 读 者 解释 为 什么 要 使 用 Python 从 事 机 器 学 习 任 务 , 并 旦 为 大 家 
推介 几 种 最 为 第 用 ,同时 也 是 功能 强大 的 编程 库 。 本 书 将 围绕 这 些 编程 库 ,教会 大 家 如 何 
快速 搭建 机 句 学 习 的 系统 ,甚至 用 于 苋 赛 实战 。 


1.2.1 为 什么 使 用 Python 


有 兴趣 的 读者 如 果 翻 阅 英 文字 典 查 找 Python 的 含义 ,十 有 八 九 会 得 到 “蟒蛇 ?这 个 解 
释 。 事 实 上 ,就 Python 的 命名 和 起 源 兽 有 一 段 逸 闻 。 首 先 ,这 门 编程 语言 框架 设计 和 解 
释 句 的 开发 , 均 是 由 一 名 人 荷兰 籍 的 计算 机 从 业者 Guido von Rossum 在 1989 年 的 圣诞 假 
期 开始 的 。 而 Python 这 个 名 字 来 源 于 Guido 本 人 非常 喜爱 的 一 部 在 20 世纪 60 一 70 年 
代 BBC 播放 的 室内 情景 幽默 剧 Mont y Python s Flying Circus , 


稍微 了 解 一 点 计算 机 发 展 历 史 的 读者 ,一定 听 说 过 汇编 .甚至 机 需 语 言 。 那 个 年 代 ， 
程序 员 的 工作 生活 远 没 有 像 现 在 这 样 滋润 : 在 加 州 硅谷 一 个 阳光 明媚 的 工作 日 ,现今 的 
程序 员 可 以 选择 不 去 自己 所 在 的 公司 ,而 是 坐 在 一 间 和 舒适 的 咖啡 厅 里 ,打开 自己 的 苹果 笔 
记 本 ,远程 连接 到 隶属 于 上 自己 的 一 台 性 能 优越 的 计算 服务 硕 , 开 始 一 天 的 工作 ;相反 , 那 时 
候 的 程序 员 几 乎 需要 整 天 对 着 一 台 麦 然 作 啊 的 庞然大物 ,迫使 自己 像 它 一 样 思 考 , 写 出 更 
加 贴近 机 需 指 令 的 程序 ,甚至 还 要 花费 更 大 的 精力 ,根据 有 限 的 计算 资源 做 各 种 各 样 的 程 
序 优化 ,最 大 限度 地 榨取 计算 机 的 性 能 。 

Python 的 作者 Guido 匣 恼 于 这 样 的 工作 状态 并 希望 改变 。 因 此 他 决心 设计 一 种 莱 
顾 可 读 性 和 易 用 性 的 编程 语言 。 因 此 ,Python 将 许多 高 级 编程 语言 的 优点 集 于 一 身 : 不 
仅 可 以 像 脚本 语言 (Script Languages) 一 样 ,用 非常 精练 易 读 的 寥寥 几 行 代 码 来 完成 一 个 
需要 使 用 C 语言 通过 复杂 编码 才能 完成 的 程序 任务 ;而 且 还 具备 面 咎 对 象 编程 语言 
(Object-oriented Programming Languages) 的 各 式 各 样 的 强大 功能 。 不 同 于 C 语言 等 编 
译 型 语言 (Compiled Languages) ,Python 作为 一 门 解 释 型 语言 (Interpreted Languages)， 
也 非常 便于 调试 代码 。 同 时 ,Python 免费 使 用 和 跨 平 台 执 行 的 特性 ,也 为 这 门 编程 语言 
带 来 了 越 来 越 多 开源 库 的 贡献 者 和 使 用 者 。 许 多 著名 的 公司 ,如 Google, Dropbox 等 ,其 
至 将 Python 纳入 其 内 部 最 为 主要 的 开发 语言 。 因 此 ,如 果 是 初 涉 计算 机 编程 的 读者 ,学 
2] Python 语言 无 疑 明 智之 选 ; 而 本 书 借 由 Python 编程 语言 来 深入 介绍 机 响 学 习 话 题 ， 
也 显得 更 为 高 效 与 易 读 。 


1.2.2 Python 机 器 学 习 的 优势 


Python 程序 语言 与 机 器 学 习 实践 可 以 称 得 上 是 “珠联璧合 ”"。 因 为 使 用 Python 编程 
技巧 ,接触 甚至 掌握 机 需 学 习 的 经 典 算法 至 少 有 以 下 4 项 优势 。 

° 方便 调试 的 解释 型 语言 : Python 是 一 门 解释 型 编程 语言 ,与 Java 类 似 , 源 代码 都 
要 通过 一 个 解释 器 (Interpreter) ,转换 为 独特 的 字 节 人 码 。 这 个 过 程 不 需要 保证 全 
部 代码 一 次 性 通过 编译 ;相反 ,Python 解释 器 逐 行 处 理 这 些 代 人 码 。 因 此 方便 了 调 
试 过 程 ,也 特别 适合 于 使 用 不 同 机 锅 学 习 模 型 进行 增 量 式 开发 。 
跨 平 台 执 行 作业 : 上 面 提 到 Python 的 源 代 码 都 会 先 解释 成 独特 的 字 节 码 , 然 后 
才 会 被 运行 。 从 另 一 个 角度 讲 , 只 要 一 个 平台 安装 有 用 于 运行 这 些 字 节 码 的 虚拟 
机 ,那么 Python 便 可 以 执行 路 平台 作业 。 这 点 不 同 于 C++ 这 类 编译 型 语言 ,但 
是 却 和 Java 虚拟 机 很 相似 。 由 于 机 需 学 习 任 务 广泛 地 执行 在 多 种 平台 ,因此 以 
Python 这 类 解释 型 语言 作为 编码 媒介 也 不 失 为 一 种 好 的 选择 。 
广泛 的 应 用 编程 接口 : 除了 那些 被 用 于 编程 人 员 上 自行 开发 所 使 用 的 第 三 方程 序 
库 以 外 ,业界 许多 著名 的 公司 都 拥有 用 于 科研 和 商业 的 云 平台 ,如 亚马逊 的 AWS 
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(Amazon Web Services) .谷歌 的 Prediction API 等 ， 这些 平 台 同 时 也 面 回 互联 
网 用 户 提 供 机 器 学 习 功 能 的 Python 应 用 编程 接口 (Application Programming 
Interface)。 许 多 平台 的 机 器 学 习 功 能 模块 不 需要 用 户 来 编写 ,只 需要 用 户 像 搭 
建 积木 一 样 ,通过 Python 语言 并 且 遵 照 API 的 编写 协议 与 规则 ,把 各 个 模块 串 
接 起 来 即 可 。 

。 丰富 完备 的 开源 工具 包 : 软件 工程 中 有 一 个 非常 重要 的 概念 , 便 是 代码 与 程序 的 
重用 性 。 为 了 构建 功能 强大 的 机 器 学 习 系 统 , 如 果 没 有 特殊 的 开发 需求 ,通常 情 
况 下 ,我们 都 不 会 从 零 开 始 编 程 。 比 如 ,学 习 算 法 中 经 常会 涉及 的 向 量 计算 ;如 果 
Python 中 没有 直接 提供 用 于 向 量 计 算 的 工具 ,我 们 还 需要 自己 花费 时 间 编 写 这 
样 的 基础 功能 吗 ? 答案 是 否定 的 。Python 自身 免费 开源 的 特性 使 得 大 量 专 业 、 
甚至 天 才 型 的 编程 人 员 ,参与 到 Python 第 三 方 开源 工具 包 ( 程 序 库 ) 的 构建 中 。 
更 为 可 嘉 的 是 ,大 多 数 的 工具 包 ( 程 序 库 ) 都 允许 个 人 免费 使 用 ,万 至 商用 。 这 其 
中 就 包括 本 书 主 要 使 用 的 多 个 用 于 机 需 学 习 的 第 三 方程 序 库 , 如 便于 回 量 .矩阵 
和 复杂 科学 计算 的 NumPy 与 SciPv; 仿 MATLAB 样式 绘图 的 Matplotlib; 包 含 
大 量 经 典 机 器 学 习 模 型 的 Scikit-learn; 对 数据 进行 快捷 分 析 和 处 理 的 Pandas; 以 
及 集成 了 上 述 所 有 第 三 方程 序 库 的 综合 实践 平台 Anaconda, 


1.2.3 NumPy & SciPy 


NumPy 是 全 书 最 为 基础 的 Python 编程 库 。NumpPy 除了 提供 一 些 高 级 的 数学 运算 
机 制 以 外 ,还 具备 非常 高 效 的 向 量 和 和 矩阵 运算 功能 。 这 些 功 能 对 于 机 需 学 习 的 计算 任务 
是 尤为 重要 的 。 因 为 不 论 是 数据 的 特征 表示 也 好 ,还 是 参数 的 批量 计算 也 好 ,都 离 不 开 更 
加 方便 快捷 的 矩阵 和 向 量 计 算 。 而 NumPy 更 为 突出 的 是 它 内 部 独到 的 设计 ,使 得 处 理 
这 些 和 矩阵 和 向 量 计 算 比 起 一 般 程序 员 自 行 编写 , 其 至 是 Python 日 市 程序 库 的 运行 效率 都 
要 高 出 许多 。 

SciPy% 则 是 在 NumPy 的 基础 上 构建 的 更 为 强大 ,应 用 领域 也 更 为 广泛 的 科学 计算 
包 。 正 是 出 于 这 个 原因 ,SciPy 需要 依赖 NumPy 的 支持 进行 安装 和 运行 。 对 这 两 个 编程 
库 感 兴趣 的 读者 ,可 以 参考 下 面 这 个 在 线 教程 详细 学 习 它 们 的 用 法 : https://docs. 


scipy. org/ doc/numpy-dev/user/quickstart. html. 


(D http://www. numpy. org/ 
@ http://www. scipy. org/ 


1.2.4  Matplotlib 


众所周知 ,MATLAB 作为 一 款 功 能 强劲 , 集 数据 分 析 和 展现 于 一 体 的 商业 软件 , 受 
到 无 数 自然 科学 工作 者 的 青睐 。 然 而 在 多 数 情 况 下 ,只 有 高 等 学 校 科 人 研 机 构 和 大 型 公司 
才能 负担 得 起 其 昂贵 的 正版 许可 证 。 就 普通 个 人 对 数据 展现 方面 的 需求 而 言 ,我 们 更 加 
希望 有 类 似 MATLAB 的 绘图 功能 ,但 是 允许 免费 使 用 的 Python FEY JE. Matplotlib®, 
作为 一 款 Python 编程 环境 下 免费 使 用 的 绘图 工具 包 , 因 为 其 工作 方式 和 绘图 命令 几乎 和 
MATLAB 类 似 , 所 以 立刻 便 成 了 本 书 的 首选 。 欲 了 解 详情 的 读者 可 以 查阅 Matplotlib 
的 在 线 文档 http://matplotlib. org/contents. html, 


1.2.5 Scikit-learn 


Scikit-learn 是 本 书 所 使 用 的 核心 程序 库 喇 ,依托 于 上 述 几 种 工具 包 , 封 装 了 大 量 经 
Wp Be ae Hr AY BL AE Ae RY, FHT A Ae FH David Cournapeau 在 2007 年 Google 夏季 
代码 节 中 提出 并 启动 。 后 来 作为 Matthieu Brucher 博士 工作 的 一 部 分 得 以 延续 和 完善 。 
现在 已 经 是 相对 成 熟 的 机 器 学 习 开 源 项 目 。 近 十 年 来 ,有 超过 20 位 计算 机 专家 参与 其 代 
人 码 的 更 新 和 维护 工作 。 作 为 一 款 用 于 机 妖 学 习 和 实践 的 Python 第 三 方 开 源 程 序 库 ， 
Scikit-learn 无 疑 是 成 功 的 。 无 论 是 其 出 色 的 接口 设计 ,还 是 高 效 的 学 习 能 力 ,都 使 它 成 
为 本 书 介 绍 的 核心 工具 包 。 另 外 Scikit-learn 还 提供 了 详细 的 英文 版 使 用 文档 http:// 
scikit-learn. org/ stable/user_guide. html, 也 是 值得 参考 的 辅助 学 习 材 料 。 


1.2.6  Pandas 


如 果 读 者 有 机 会 采访 在 一 线 EBL BB ^e 2J W FEL A À 5: , [B] fi (198 TE TE BL BB A 
的 哪个 环节 最 耗费 时 间 RR £ CA ZR 20 28 Hb [H| 2 fe: "Xd ub BE s S b. E 
Ap Ft ñF BH BA EE AB RARE H JJ JÁ sk 4° 8 BL 65 ^6 >J RY B Es Iñ] FE ET IBS S 
项 目 和 特定 的 数据 ,使 用 现 有 的 经 典 模型 进行 分 析 。 这 样 一 来 ,时 间 多 数 被 花费 在 处 理 数 
据 , 甚 至 是 数据 清洗 的 工作 上 ,特别 是 在 数据 还 相对 原始 的 条 件 下 。Pandas@ 是 一 款 针 对 
于 数据 处 理 和 分 析 的 Python 工具 包 , 具 体 文 档 见 http://pandas. pydata. org/pandas- 
docs/stable/, 。 其 中 实现 了 大 量 便于 数据 读 与 清洗、 填充 以 及 分 析 的 功能 。 这 样 就 帮助 


(D http;//matplotlib. org/ 
© http;//scikit-learn, org/ 
@ http://pandas. pydata. org/ 
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研发 人 员 节省 了 大 量 用 于 数据 预 处 理工 作 的 代码 ,同时 也 使 得 他 们 有 更 多 的 精力 专注 于 
具体 的 机 器 学 习 任务 。 


1.2.7 Anaconda 


读 到 这 里 ,也 许 会 觉得 前 面 介 绍 的 许多 工具 包 相 互 之 间或 多 或 少 都 存在 着 一 些 依赖 
关系 ,一 时 间 也 很 难 弄 明白 ;而 且 实 际 操 作 也 可 能 比较 复杂 。 是 否 有 一 个 集成 平台 ,一 旦 
安装 便 不 需要 考虑 这 些 琐碎 的 事情 了 呢 ? 答案 是 : 既然 有 需求 ,那么 一 定 有 ! 对 于 想 快 
速 上 手 的 初学 者 而 言 ,笔者 推荐 使 用 Anaconda? 平台 ,只 要 下 载 并 安装 对 应 操作 系统 以 
及 Python 解释 器 版 本 的 程序 包 , 便 可 以 一 次 性 获得 300 多 种 用 于 科学 和 工程 计算 相关 任 
务 的 Python 编程 库 的 支持 ;本 书 所 涉及 的 编程 库 仅 仅 是 其 冰山 一 角 。 感 兴趣 的 读者 可 以 
深入 阅读 其 文档 : https://www. continuum. io/documentation, 


“13 Pawa 环境 配置 


从 现在 开始 ,请 读者 准备 一 台 以 Windows 或 者 Mac OS 作为 操作 系统 的 个 人 计算 
机 。 我 们 将 从 零 开 始 , 回 读者 分 别 介绍 如 何在 这 两 个 主流 的 操作 系统 平台 上 ,配置 并 且 运 
行 本 书 全 部 代码 所 需 的 Python 解释 需 、 编 程 库 以 及 开发 环境 。 

这 里 需要 提前 向 读者 声明 : Python 编程 语言 有 两 个 版 本 ,分 别 是 Python 2. x 与 
Python 3. x。 因 为 一 些 “ 历 史 遗 留 ?@ 问 题 ,使 得 这 两 个 版 本 不 仅 无 法 相互 兼容 ,而 且 就 连 
一 些 编程 语法 都 不 一 致 。 所 以 ,我 们 建议 读者 在 学 习 Python 的 时 候 , 姑 且 把 它们 视 作 两 
种 不 同 的 编程 语言 。 本 书 中 所 有 编写 的 示例 代码 都 可 以 流畅 运行 于 Mac OS 的 Python 
2.7 平台 。 


1.3.1 Windows 系统 环境 


ili Windows 操作 系统 版 本 的 不 同 可 能 会 影响 配置 的 流程 ,因此 笔者 这 里 先 交代 
下 本 书 所 使 用 的 Windows 版 本 环境 : Windows 7 Ultimate 64 位 Service Pack 1 ,以 便于 
读者 参考 。 


(D https://www. continuum, io/ 
© 拓展 小 贴 士 6: 具体 的 历史 原因 很 复杂 , 感 兴趣 的 读者 可 以 阅读 Python 核心 开发 团队 成 员 Brett Cannon Z 3€ 8918 % http: / / 


www. snarky. ca/why-python-3-exists 


1.3.1.1 Python 2.x 解释 器 安装 与 配置 


我 们 已 经 说 过 ,Python 编程 语言 有 两 个 版 本 : Python 2. x 与 Python 3. x。 这 两 个 版 
本 互 不 兼容 ,许多 初学 者 因为 忽略 了 这 一 点 而 无 法 执行 自己 的 代码 。 因 此 ,这 里 再 次 提醒 
本 书 使 用 Python 2. x 的 版 本 。 大 家 可 以 到 Python 的 官网 https://www. python. org/ 
downloads/ 自 行 下 载 ,如 图 1-6 所 示 。 官 方 网 站 也 对 版 本 做 了 区 分 ,并 且 截 至 本 书 完稿 的 
时 候 ,Python 2. x 更 新 到 2.7.11 版 本 。 


g python 
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1-6 Python 解释 器 环境 之 Windows 版 本 下 载 官网 


但 是 考虑 到 软件 的 稳定 性 ,作者 建议 选择 前 一 个 版 本 。 同 时 ,建议 使 用 64 位 操作 系 
统 的 读者 从 链接 https://www. python. org/downloads/release/python-2710/ 选 择 下 载 
Windows x86-64 MSI installer (32 位 操作 系统 的 用 户 只 能 下 载 Windows x86 MSI 
installer, 但 是 其 后 的 安装 步骤 与 64 位 一 致 : 64 位 Python 2. 7. 10 的 安装 包 为 python- 
2. 7. 10. amd64. msi, 双 击 运行 ,按照 默认 配置 ,一 路 单 击 next 按钮 即 可 完成 安装 。 

如 果 安 装 成 功 , 使 用 Windows ahi TA python, , 便 可 以 看 到 如 图 1-7 所 示 的 样 例 ， 
并 伴 有 Python 特有 的 命令 提示 符 > š 

如 果 在 Windows 命令 行 中 输入 python, X S SUR HORREA 部 命令 。 那 么 读者 
在 保证 之 前 所 有 的 安装 都 正常 完成 的 前 提 下 ,可 以 右 击 “我 的 电脑 ”, 在 弹出 的 快捷 菜单 中 
单 击 “ 属 性 ?选项 ,选择 左边 栏 的 “高 级 系统 设置 ?>。 如 图 1-8 所 示 ,选择 “环境 变量 ”, 并 且 
在 下 部 “系统 变量 ”中 编辑 Path. JI A Python 的 安装 路 径 即 可 (默认 一 般 是 C: \ 
Python27), 


Python 2.7.10 Xdefault, May 23 2015, 89:44:00» [MSC o.1500 64 bit CAMD64)] on wi 


"help", "copyright", "credits" or "license" for more information. 


1-7 Python 解释 器 Windows 运行 界面 ( 见 彩 图 ) 
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1-8 Windows 操作 系统 下 Python 环境 变量 配置 ( 见 彩 图 ) 


1.3.1.2 Python 2.x 编程 库 安 装 与 配置 


接 痢 就 需要 配置 跟 机 硕 学 习 有 关 的 一 系列 Python 的 扩展 包 了 。 不 过 在 此 之 前 ,需要 


在 该 文件 所 在 目录 下 打开 Windows 的 命令 (cmd. exe) 窗 口 ,并 且 在 提示 行 中 运行 python 
get-pip. py. 


美国 加 州 大 学 尔 湾 分 校 的 一 个 实验 室 网 站 提供 了 大 量 用 于 Windows 平台 下 的 
Python 第 三 方 扩展 包 下 载 http://www. lfd. uci. edu/ 一 gohlke/pythonlibs/ ,特别 实用 。 
大 家 到 里 面 去 下 载 以 cp27-none-win_amd64. whl 结尾 的 一 系列 扩展 包 , 按 照 依赖 顺序 分 
别 为 Numpy 十 MKL SciPy 和 Scikit-learn, 并 依次 在 下 载 文 件 同 目录 的 cmd. exe 中 键入 
这 样 的 命令 (以 scikit learn-0. 17-cp27-none-win amd64. whl 为 例 ): 

python -m pip install -U scikit learn-0. 17-cp27-none-win amd64. whl 


安装 完 上 述 三 种 扩展 包 之 后 ,各 位 就 可 以 通过 
>>> import numpy, scipy, sklearn 


测试 并 且 使 用 它们 。 此 外 ,如 果 想 跟 本 书 示 例 一 样 使 用 Python 作 图 ,那么 就 需要 
Matplotlib, Matplotlib 同样 也 需要 一 系列 扩展 包 的 支持 ,所 有 必 备 的 库 numpy、 
dateutil, pytz, pyparsing, six 等 都 能 从 刚才 推荐 的 下 载 网 站 上 检索 到 。 


1.3.1.3 Python 2.x 开 发 环境 推荐 


我 们 在 准备 编写 和 运行 Python 源 代 码 之 前 ,除了 可 以 在 Windows 命令 行 中 通过 输 

入 Python 调用 最 为 基本 的 解释 需 环 境外 ,还 可 以 使 用 很 多 功能 更 加 丰富 和 强大 的 集成 开 

发 环境 (Integrated Development Environment,IDE)。 这 些 免 费 的 甚至 商用 的 独立 软件 

主要 是 为 了 服务 于 专业 的 编程 人 员 ,协作 开发 更 为 大 型 的 应 用 程序 。 这 里 也 推荐 读者 在 
Windows 操作 系统 上 使 用 。 比 较 篆 用 的 软件 包括 以 下 几 种 。 

* IDLE( Integrated Development and Learning Environment) : 这 款 软 件 属于 免费 并 

且 轻 量 级 的 交互 式 解 释 环 境 , 安 装 Python HE EAE ha LZ MI. IDLE 会 逐条 运 

行 代码 行 ,并 且 编 程 人 员 会 当即 得 知 运行 状态 和 结果 ,如 图 1-9 所 示 。 由 于 其 交 


Type "copyright", "credits" or "license()" for more information. 
>>> print 'Hello Everyone'!' 

Hello Everyone! 

>>> 


图 1-9 Windows 操作 系统 下 Python IDLE 运行 界面 ( 见 彩 图 ) 


* IPython: 这 是 一 款 笔 记 本 风格 的 ,并 且 基 于 浏览 硕 的 解释 硕 环 境 , 如 图 1-10 所 
示 。 一 般 在 安装 Anaconda 的 同时 就 会 附带 。 对 于 想 快 速 搭建 运行 环境 并 且 实 践 


Bim ”简介 篇 : 


. 
-— -m 一 
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本 书 代 码 的 读者 而 言 , 作 者 最 为 推荐 使 用 这 款 集成 开发 环境 。 原 因 在 于 Anaconda 
的 一 键 式 安装 (Windows 版 本 的 Anaconda 的 下 载 地 址 为 https://www. 
continuum. io/downloads 井 _windows) 可 以 帮助 使 用 者 一 次 性 配置 好 所 有 本 书 需 
要 的 工具 包 以 及 IPython 解释 大 环境 。 同 时 [Python 还 提供 了 非常 方便 的 互联 
网 发 布 功能 ,可 以 随时 随地 利用 互联 网 维护 .更 新 以 及 交流 Python 源 代码 。 


一 
- Ju pyter Chapter 1.1 Last checkpomt 33 minutes ago (autosaved) ea 
File Edit View insert Cell Kernel Help | Python 2 O 
+ x @ BH + b|| M| Nm C co "| Cell Toobar: | None . 


; àmport pandas as pd 


df train = pd.read csv('../Datasets/Breast-Cancer/breast-cancer-train.csv') 


; |df test = pd.read csv(‘../Datasets/Breast-Cancer/breast-cancer-test.csv") 


: df test negative = df test.loc[df test['Type'] == 8G][['Clump Thickness’, ‘Cell Size']] 
df test positive = df test.loc[df test['Type'] == 1][['Clump Thickness’, ‘Cell Size']] 


: import matplotlib.pyplot as plt 


plt.scattenr(df test negative['Clump Thickness'],df test negative['Cell Size'], marker = 'o', s-200, c-'red') 
plt.scatter(df test positive['Clump Thickness'],df test positive['Cell Size'], marker = 'x', s-150, c-'black') 
plt.xlabel('Clump Thickness') 

plt.ylabel('Cell Size') 

plt.shou() 


C:\Anaconda2\1lib\site-packages\matplotlib\collections.py:59@; FutureWarning: elementwise comparison failed; returning scalar ins 
tead, but in the future will perform elementwise comparison 
if self. edgecolors -- str('face'): 


图 1-10 IPython 解释 器 界面 ( 见 彩 图 ) 


* PyCharm: 这 是 一 款 功能 强劲 的 商业 软件 ( 见 图 1-11) ,同时 也 提供 免费 的 社区 版 
本 (下 载 地 址 为 https://www. jetbrains. com/pycharm/download/ # section = 
windows)。 对 于 已 经 熟悉 Python 编程 的 专业 人 士 而 言 , 使 用 这 款 软 件 无 疑 会 如 


CA Py 


45 


图 1-11 Windows 平台 下 Pycharm 软件 开启 界面 


虎 添 驾 。 其 优秀 的 智能 代码 提示 功能 , 免 去 了 大 家 记忆 大 量 Python 编程 关键 词 、 
PRL Ae T.H E PRA S RADI 


1.3.2 Mac OS 系统 环境 


同样 ,我 们 对 于 所 使 用 的 Mac OS 的 版 本 也 交代 一 下 : OS X EI Captian Version 
10. 11.2。 同 时 ,如 果 大 家 在 操作 系统 配置 方面 有 任何 疑问 ,也 欢迎 致 信 作 者 的 电子 邮箱 ç 


1.3.2.1 Python 2.x 解释 器 安装 与 配置 


大 多 数 较 新 的 Mac OS 都 默认 安装 Python 2. x AY fife FERS HH HE. HER tm (Terminal) 上 
输入 Python 得 到 如 图 1-12 所 示 的 样 例 。 
1172-16-239-4:Miao Fan jieleizhu$ python 
‘Python 2.7.10 (default, Oct 23 2015, 18:05:06) 


[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin 
(Type "help", "copyright", "credits" or "license" for more information. 


1-12 使 用 Mac OS 终端 调用 默认 Python 解释 器 样 例 


如 果 Mac OS 没有 安装 Python 2. x, 请 前 往 这 个 链接 https://www. python. org/ 
downloads/release/python-2710/ ,并 且 根 据 Mac OS 的 版 本 选择 下 载 。 


1.3.2.2 Python 2.x 编程 库 安装 与 配置 


与 Windows 不 同 ,Mac OS 的 许多 程序 安装 在 终端 上 通过 命令 完成 更 为 方便 。 作 者 
在 这 里 推荐 Mac OS 平台 的 使 用 者 安装 pip。 首 先 打开 Mac OS 的 终端 (Terminal) ,确认 
HO Mac OS 已 经 安装 了 Python 的 解释 堪 环 境 ; 然 后 ,在 命令 提示 符 ($ ) 下 输入 curl 
https://bootstrap. pypa. io/get-pip. py 二 get-pip. py 下 载 到 本 地 ; 接 下 来 ,在 命令 提示 符 
下 继续 输入 sudo python get-pip. py 安装 pip, 这 时 候 终 端 会 提示 输入 系统 登录 密码 ,也 
就 是 开机 密码 ;输入 成 功 之 后 ,pip 就 安装 好 了 。 我 们 同样 在 图 1-13 为 大 家 提供 了 示范 性 
的 安装 步骤 。 

对 于 包括 NumPy,SciPy,Scikit-learn 以 及 Matplotlib 在 内 的 任何 相关 的 Python T. 
具 包 ,在 安装 完 pip 之 后 ,只 需要 在 终端 的 命令 提示 符 ($ ) 后 ,通过 以 下 命令 即 可 完成 : 


sudo pip install 工具 包 名 称 


比如 安装 Scikit-learn, 则 输入 sudo pip install sklearn 即 可 。 
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[Python 2.7.10 (default, Oct 23 2015, 18:05:06) 
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin 
[Type "help", "copyright", "credits" or "license" for more information. 


Ber ee oe ea ee eee ee ee eee eee eee eee ee eee 

\172-16-239-4:Miao Fan jieleizhu$ curl https://bootstrap.pypa.io/get-pip.py > get-pip. py | 
~ & Total  * Received % Xferd Average Speed Time Time Time Current = 
[ Dload Upload Total Spent Left Speed 

[100 1476k 100 1476k 20 .— O0 1535k «—  ÁQ —:--:-- -—:--:-- ini 1534k _ 

| 172-16-239-4:Miao Fan jieleizhu$ sudo python get-pip.py - 


WARNING: Improper use of the sudo command could lead to data loss 
or the deletion of important system files. Please double-check your 
[typing when using sudo. Type "man sudo" for more information. 

To proceed, enter your password, or type Ctrl-C to abort. 


Password: 
The directory '/Users/jieleizhu/Library/Caches/pip/http' or its parent directory is not < 
wner of that directory. If executing pip with sudo, you may want sudo's -H flag. 
The directory '/Users/jieleizhu/Library/Caches/pip' or its parent directory is not owned 
[ that directory. If executing pip with sudo, you may want sudo's -H flag. 
Collecting pip 
Downloading pip-8.0.0-py2.py3-none-any.whl (1.2MB) 
100% | | 1.2MB 369kB/s 
Collecting wheel 
Downloading wheel-0.26.0-py2.py3-none-any.whl (63kB) 
100% | s| 65 kB 6 . 9M6/ < 
Installing collected packages: pip, wheel 
Successfully installed pip-8.0.0 wheel-0.26.0 


1-13 Mac OS F pip 安装 步骤 ( 见 彩 图 ) 


1.3.2.3 Python 2.x 开发 环境 推荐 


前 面 介 绍 了 许多 用 于 Windows 平台 的 Python 集成 开发 环境 。 这些 IDE 同样 也 提 
HE Mac OS 的 软件 版 本 。 因 此 ,我 们 这 里 不 再 费 述 这 些 软件 的 使 用 优势 ,而 只 是 提供 这 些 
软件 Mac OS 版 本 的 下 载 地 址 。 
* Terminal; 习惯 Mac OS 的 用 户 多 数 认为 苹果 系统 的 终端 就 是 一 个 展 好 的 编程 平 
台 , 这 点 作者 也 很 赞同 。 因 此 ,对 于 使 用 Mac OS 的 用 户 , 使 用 Python 的 IDLE, 
与 直接 在 Terminal 中 对 Python 进行 编程 差别 不 大 。 
° IPython: Mac OS 版 本 的 下 载 地 址 为 https://www. continuum. io/downloads # _ 
macosx, 
* PyCharm: Mac OS 版 本 的 下 载 地 址 为 https://www. jetbrains. com/pycharm/ 
download / # , 


> 14 Python 编程 基础 


本 节 主 要 为 没有 接触 过 或 者 正在 学 习 Python 编程 的 读者 而 设 。 不 同 于 那些 完整 介 


绍 Python 编程 的 书籍 07 09 , 作 者 并 没有 作 铺 陈 的 打算 ;而 是 尝试 从 本 书 的 需求 和 特点 
出 发 ,去 粗 取 精 ,提炼 “干货 ”, 回 读者 介绍 足以 用 来 理解 并 且 实 践 本 书 代 码 的 Python 基础 
编程 知识 0， 
1.4.1 Python 基本 语法 

从 “1.2 Python 编程 库 ” 和 “1. 3 Python 环境 配置 ”两 节 对 Python 的 描述 中 ,对 这 门 
编程 语言 已 经 有 了 一 些 了 解 。 总 体 而 言 ,Python 代码 相对 简短 、 易 于 理解 ,并 日 具有 交互 
性 。 下 面 是 本 书 的 第 一 段 成 功 运行 的 Python 代码 : 
| 代码 1: 一 段 正 确 运 行 的 Python RE ü 

>>> isMLIGeek- True 


>>># 如 果 您 是 一 位 机 器 学 习 爱 好 者 ,系统 常规 输出 :推荐 您 购买 《Python 机 器 学 习 及 实践 )》。 
>>> if isM[Geek: 


print 'I recamend you to read "DIY Machine Learning Systems for Kaggle Competitions with Python 


Programing"! ' 


I recomend you to read "DIY Machine Learning Systems for Kaggle Gapetiticns with Python Programming"! ` 


>>> 


我 们 通过 上 面 的 例子 回 读 者 统一 介绍 对 本 书 代 码 展 示 的 如 下 约定 :〈 代 码 前 方 市 有 

二 二 二 提示 符 ) 带 有 灰色 背景 的 代码 为 输入 ,字体 为 Courier New。 字 体 加 粗 仍然 为 

Courier New, 但 是 没有 灰色 育 景 的 , 视 为 常规 输出 ;其 他 设 定 同上 ,但 是 颜色 为 红 ( 本 书 用 

深 底 纹 标注 ) , 视 为 警告 或 者 系统 输出 。 而 在 代码 1 中 ,有 三 个 有 关 Python 编程 语法 的 关 
键 要 素 ,它们 分 别 是 : 

° 命令 提示 符 : 代码 中 每 一 行 有 关 Python 的 编程 语句 都 由 二 二 二 作为 命令 提示 

IF. Æ Python 的 命令 行 环境 中 ,一般 每 两 个 命令 提示 符 之 间 的 代码 都 会 当即 被 

解释 器 处 理 2。 读 者 若是 自己 实践 代码 1, 输 入 第 1 行 并 按 回 车 键 ,刚刚 输入 的 命 

令 就 会 被 解释 器 处 理 和 执行 。 如 果 没 有 语法 或 者 其 他 错误 , 便 会 看 到 下 一 个 提示 
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拓展 小 贴 士 7: 这 里 作者 需要 向 读者 说 明 的 是 ,本 书 所 介绍 的 Python 常用 编程 基础 知识 , 比 起 其 他 专业 介绍 Python 编程 的 书籍 ， 
内 容 并 不 完备 。Python 是 一 门 内 容 非常 广泛 的 编程 语言 ,因此 ,本 书 中 提 到 的 诸如 Python 数据 类 型 和 语法 语句 等 ,并 不 能 涵盖 Python 的 


所 有 内 容 。 如 要 深入 了 解 Python 高 级 编程 ,建议 读者 选择 阅读 [3],[4] 等 书籍 。 


© 拓展 小 贴 士 8: 如 果 使 用 PyCharm 或 者 [Python Notebook 等 集成 开发 平台 ,我们 则 看 不 到 Python 命令 行 提示 符 。 读 者 只 需要 在 


Python 源 文件 (* . py) 中 输入 全 部 的 代码 ,随即 交 给 平台 运行 即 可 观察 到 一 样 的 输出 。 


T9; : 
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| 


符 ,如 代码 1 所 示 ;如果 输入 的 代码 有 问题 ,如 代码 2 所 示 , 那 么 Python 解释 器 会 
反馈 一 段 错误 的 说 明 , 并 依然 给 出 提示 符 二 二 二 ，。 


代码 2: 一 段 错 误 运 行 的 代码 
>>> isM Geek 
Traceback (most recent call last): 


File "<pyshe11# ©", line 1, in «module» 


isMLGeek 


NameError: name 'isMIGeek' is not defined 


>>> | 


代码 缩 进 : 读者 如 果 按 照 代 码 1 输入 到 第 3 行 按 回 车 键 ,会 发 现 既 没 有 常规 的 输 
出 ,也 没有 系统 错误 的 提示 ,更 没有 下 一 个 代码 提示 符 出 现 ; 而 是 解释 需 在 下 一 行 
回 右 缩 进 (键盘 上 对 应 制 表 符 Tab) 了 一 级 。 这 是 Python IK C.C ++ Al Java 这 些 
语言 在 代码 模块 设计 上 的 一 个 简化 。 许 多 在 CC++ M Java 语言 中 需要 用 {)} 来 分 
割 的 模块 ,在 Python 中 都 严格 采用 缩 进 机 制 进 行 区 分 。 和 常见 需要 缩 进 的 场景 包 
括 分 支 .循环 、 肾 数 定义 等 ,我 们 会 在 后 续 的 章节 一 一 介绍 和 举例 。 

注释 : 如 果 读 者 在 命令 行 环境 中 输入 代码 1 中 的 第 2 行 ,会 发 现 Python 解释 器 并 
没有 语法 错误 提示 。 并 不 是 因为 Python 有 识别 中 文 命令 的 能 力 , 而 是 我 们 使 用 
f # 引导 了 一 行 代 码 注 释 。 而 代码 注释 会 被 解释 器 忽略 ,因此 读者 不 会 看 到 错 
误 提 示 。 有 些 读者 似乎 觉得 注释 没有 对 编程 有 实质 性 贡献 ,然而 ,恰恰 相反 ,为 代 
码 添加 注释 是 一 种 专业 性 的 良好 习惯 ,使 得 代码 便于 追溯 并 且 提 高 可 读 性 。 本 书 
将 秉承 这 一 恨 好 的 编码 习惯 ,在 需要 解释 的 地 方 都 会 增加 代码 注释 ,方便 读者 阅 
读 和 理解 。 


瑞士 计算 机 科学 家 、1984 年 图 灵 奖 获得 者 Niklaus E. Wirth 在 他 1976 年 出 版 的 著 
名 书籍 Algorithms + Data Structures = Programs rp E —- 4 3E Be A mx s HN, 
程序 是 由 数据 结构 与 算法 组 成 。 因 此 ,我 们 对 后 续 Python 编程 细节 的 讲授 也 遵照 这 个 思 
路 , 先 与 读者 探讨 Python 数据 类 型 ,然后 逐步 深入 介绍 与 算法 有 关 的 运算 符 流程 控制、 
函数 以 及 编程 库 等 内 容 。 


1.4.2 Python 数据 类 型 


Python [A E IJ 7$ FA 23 3s 28 70 HC. 6 种 : 数字 (Number) , ffi Aç fË (Boolean) , 字符 串 
(String) ,还 有 复杂 一 些 的 元 组 (Tuple) 、 列 表 (List) 以 及 字典 (Dictionary)。 比 起 其 他 高 


级 编程 语言 ,Python 内 简 数 据 类 型 的 种 类 相对 简化 了 许多 , 话 述 如 下 。 


数字 (Number) : 常用 的 数字 类 型 包括 整 型 数 (Integer) ,长 整 型 数 (Long)、 浮 点 数 
(Float) 以 及 复杂 型 数 (Complex)。 整 型 数 和 浮 点 数 是 我 们 平时 最 常 使 用 的 两 类 ， 
举例 来 说 : 读者 可 以 先 简单 地 理解 为 常用 的 整数 ,如 10,100, — 100 等 都 是 整 型 
数 ; 一 般 用 于 计算 的 小 数 , 如 一 0.1、10.01 等 都 可 以 使 用 Python 的 浮 点 数 数字 类 
型 进行 存储 了 D。 长 整 型 与 复杂 数据 类 型 (虚数 ) 不 太 常用 ,因此 不 过 多 介绍 ，。 
布尔 值 (Boolean): 计算 机 的 计算 基础 是 二 进 制 ,因此 任何 一 门 编程 语言 都 会 有 这 
个 数据 类 型 ,用 来 表示 真 / 假 。 在 Python 中 ,这 两 个 值 有 固定 的 表示 : True 代表 
真 ,False 代表 假 。 切 记 ,Python 是 大 小 写 敏 感 的 编程 语言 ,因此 只 有 按照 这 样 输 
入 才 会 被 解释 需 理 解 为 布尔 值 。 

字符 串 (String) : 字符 串 是 由 一 系列 字符 (Character) 组 成 的 数据 类 型 ,应 用 范围 
十 分 广泛 ,特别 是 针对 文本 数据 的 处 理 。 在 Python 里 ,字符 串 的 表示 可 以 使 用 成 
对 的 英文 单 引 号 或 者 双 引 号 辅助 进行 表示 :“abc ”或 者 "123”。 尽 管 123 看 似 是 一 
个 整 型 数 ,但 是 一 旦 被 成 对 的 单 引号 或 者 双 引 号 限制 起 来 , 便 成 了 字符 串 类 型 的 
数据 。 


上 述 三 类 都 是 Python 基本 的 内 置 数据 类 型 。 它 们 是 数据 表达 、 存 储 的 基础 。 下 面 即 
将 介绍 的 三 种 数据 结构 相对 复杂 ,而 且 需 要 上 述 三 种 基础 数据 类 型 的 配合 。 


Q 拓展 小 贴 士 9: 很 多 详细 介绍 Python 编程 的 专业 书籍 会 从 计算 机 存储 原理 的 角度 深入 介绍 各 个 类 型 可 以 表达 的 数据 范围 。 这 里 


元 组 (Tuple) : 元 组 是 一 系列 Python 数据 类 型 按照 顺序 组 成 的 序列 。 使 用 一 组 
小 括号 O 表征 ,如 CL, abe’, 0. 4) 是 一 个 包含 有 三 个 元 素 的 元 组 。 而 且 读 者 会 
发 现 ,元 组 中 的 数据 类 型 不 必 统 一 ,这 个 是 Python 的 一 大 特点 。 另 外 ,假设 上 例 
的 这 个 元 组 叫做 t, 那 么 t[0] 的 值 为 1,t[L1] 的 值 为 abc'。 也 就 是 说 ,我 们 可 以 通过 
索引 直接 从 元 组 中 找到 我 们 需要 的 数据 。 特 别 需要 提醒 的 是 ,大 多 数 编程 语言 
默认 索引 的 起 始 值 为 0, 不 是 1。 

列表 (List) : 列表 和 元 组 在 功能 上 几乎 是 类 似 的 ,只 是 表示 方法 略 有 不 同 。 列 表 
实用 一 对 中 括号 L」 来 组 织 数 据 , 如 [1，'abc'，0. 4]。 需 要 记 住 一 点 例外 的 是 : 
Python 允许 在 使 用 者 在 访问 列表 的 同时 修改 列表 里 的 数据 ,而 元 组 则 不 然 。 具 
体 实 例会 在 后 面 “1. 4. 3 Python 数据 运算 ” 节 中 展示 , 详 见 代码 5。 

FË (Dictionary): 这 是 Python 里 面 非常 实用 而 且 功 能 强大 的 数据 结构 ,特别 在 
数据 处 理 任务 里 面 ,字典 几乎 成 了 数据 存储 的 主流 形式 。 从 字典 自身 的 数据 结构 
而 言 , 它 包括 多 组 键 (key): 值 (value) 对 ,Python 实用 大 括号 来 容纳 这 些 键 值 对 ， 


不 过 多 涉猎 , 感 兴趣 的 读者 请 自行 阅读 其 他 材料 。 
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如 {人 :1', 'abc':0.1,0.4:80}。 需 要 读者 注意 的 是 ,字典 中 的 键 是 唯一 的 ,但 是 没 
有 数据 类 型 的 要 求 。 而 查找 某 个 键 对 应 的 值 也 和 元 组 或 者 列表 的 访问 方式 类 似 。 
比如 ,假设 上 例 的 字典 为 变量 d, 那 么 dL |] 的 值 为 1';dL'abc"] 的 值 为 0.1. 


1.4.3 Python 数据 运算 


既然 在 上 一 节 我 们 刚刚 介绍 了 Python 的 数据 类 型 , 接 下 来 ,我 们 开始 了 解 如 何 对 这 
些 数 据 进行 运算 。 第 用 的 数据 运算 类 型 有 如 下 几 种 。 

。 算术 运算 (Arithmetic Operators): 毫 无 疑问 ,这 是 作为 一 门 编程 语言 必须 具备 的 
基础 运算 功能 。Python 篆 用 的 算术 运算 符 有 : 加 法 (十 ) ,减法 (一 )、 乘 法 (* )、 除 
ik C/) Bu CAO WRB CC x ) 运 算 。 下 面 的 代码 3 展示 了 对 应 的 使 用 样 例 。 

: >>># 整 数 加 法 。 


>>>10+ 20 
30 


>>># 整 数 与 浮 点 数 的 减法 。 
>>> 30 -60.6 
-30.6 


>>># 整 数 与 浮 点 数 的 乘法 。 
>>>4* 8.9 
35.6 


>>># 整 数 与 整数 的 除法 ,这 里 会 发 现 结果 只 是 保留 了 取 整 后 的 商 数 。 
z> GA 
1 


>>># 整 数 与 浮 点 数 的 除法 ,结果 变 为 浮 点 数 。 
>>>5.0/4 
1.25 


>>># 整 数 取 模 运 算 。 
>>>5%4 : 


. 
= —< lll ll < < < < < < < < < < < — — — — < mil < — < < < < < < < < — — — < < < < < < < < < < < < — < < — < < _ 一 
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HEB. 
> 4 X 3 
8.0 


>>> | 


° 比较 运算 (Comparison Operators): 如 果 说 ,算术 运算 的 返回 值 一 般 是 数字 类 型 
的 话 ;那么 ,比较 运算 则 反馈 布尔 值 类 型 的 结果 , 详 见 代码 4。 
EID 比较 运算 代码 举例 
3 >>># 整 数 比 较 。 
>>> 10 < 20 
True 


>>> 10> 20 
False 


>>># 整 数 与 浮 点 数 的 比较 。 
>>> 30 <= 30.0 

True 

>>> 30.0 >= 30.0 

True 


>>> + Fl Br PS q ñ t THE. 
>>> 30 == 40 
False 


>>># 两 个 值 不 相等 的 判定 。 
>>> 30 != 40 
True 


>>> | 


。 赋值 运算 (Assignment Operators): 上 述 两 类 运算 的 示例 都 有 一 个 共同 的 特点 ， 
即 所 有 的 运算 结果 都 只 是 作为 一 次 性 的 输出 使 用 。 然 而 ,更 多 情况 下 ,我 们 需要 
对 数据 运算 的 中 间 结 果 进 行 存储 ,以 备 后 续 使 用 。 因 此 ,需要 将 一 些 数据 赋值 给 
日 定义 的 变量 。 与 许多 流行 的 高 级 编程 语言 C.C ++. Java 等 不 同 ,Python 在 声明 
变量 时 不 需要 预告 知 类 型 ,如 代码 5 所 示 。 
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| 代码 5: 赋值 运算 代码 样 例 


>>># 将 一 个 元 组 赋值 给 变量 t. 
>>> t= (1, 'abc', 0.4) 


>>> # 试图 更 改元 组 七 的 第 一 个 元 素 , 但 是 解释 器 报错 ， 具体 原因 我 们 已 经 济 过 ,元 组 一 旦 初始 化 


不 可 以 改变 内 部 元 素 。 
>>> 七 [0]=2 


SE ee ee ee oe oe ee ee ee ee ce ee ee ee ee ee ee ee ee ee ee ee ee oe ce ee ee ce ee ee ee ee we we ee ee ee oe ee ee ee ee ee ee ee ee ee ee ee we ee ee we ee ee {Ř_—/-Å ' 
` 
" 


------'Type&rror Traceback (most recent call last) < ipython- input- 16- 
29b3302c4f70> in < mdule» () -- -- > 1 t [0]= 2 TypeError: 'tple' cect dms mk appart ibm 
assignment 


>>># 将 一 个 列表 赋值 给 变量 1, 
>>> = [1, "abc", 0.4] 


>>># 试 图 更 改 列表 1 的 第 一 个 元 素 。 
>>> 1[0]= 2 


>>> 试图 对 更 新 过 的 列表 1 的 第 一 个 元 素 2, 进 行 递增 1 并 重新 赋值 的 操作 。 
>>>1[0] + =1 

>>># 观 察 输出 ,应 该 为 3。 

>>> 1[0] 


3 


>>># 试图 对 更 新 过 的 列表 1 的 第 一 个 元 素 2, 进 行 递 减 2, 并 且 重 新 赋值 给 1[0]。 


>>>1[0] -=2 
>>># 观 察 输出 ,应 该 为 L 
>>> 1[0] 


1 " 
>>> | 


。 逻辑 运算 (Logical Operators): 这 种 类 型 的 运算 比较 简单 ,共有 三 种 : 与 (and) ,或 
Cor) 、 非 (not)。 如 代码 6 所 示 ,逻辑 运算 所 涉及 的 数据 类 型 为 布尔 值 , 返 回 值 也 
是 布尔 值 , 所 以 仅仅 存在 有 限 的 几 种 可 能 性 。 
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| 代码 6: 逻辑 运算 代码 样 例 


>>>#5(ad ZR RAL ABE True 返回 值 才 是 True, 
>>> True and True 


>>> True and False 


>>># 或 (oD 运 算 只 要 有 其 中 一 方 为 True, 运 算 结 果 就 是 True, 
>>> True or False 


>>> False or False 


>>># 非 (nob) 运 算 直 接 反 转 布尔 值 。 


>>> not True 
False 


>>> | 


° 成 员 运 算 (Membership Operators): 这 是 针对 Python 里 面 较 为 复杂 的 数据 结构 
而 设立 的 一 种 运算 ,主要 面向 元 组 、 列 表 和 字典 。 通 过 运算 符 in 询问 是 否 有 某 个 
元 素 在 元 组 或 者 列表 里 出 现 , 或 者 检视 某 个 键 (key) 是 否 在 字典 里 存在 。 这 是 
Python 里 面 非常 实用 而 且 功 能 强大 的 运算 ,特别 在 数据 处 理 任务 里 面 。 代 码 7 
将 会 延续 使 用 之 前 的 数据 样 例 进行 说 明 。 


| 代码 7: 成 员 运 算 代 码 样 例 


>>># 将 一 个 列表 赋值 给 变量 1, 一 个 元 组 赋值 给 变量 t, 一 个 字典 赋值 给 变量 d, 
>>> ]= [1, 'abc', 0.4] 

>>> t= (l,'abc', 0.4) 

»»»d-[1: '1', 'abc': 0.1, 0.4:80) 


>>># 试图 询问 1 列表 中 是 否 有 0.4, 
>>> 0.4 in 1 


True 
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>>> +# 试图 询问 七 元 组 中 是 否 有 L 
ooT1ant 


True 


>>> 4 试图 询问 字典 d 中 是 否 有 键 abc", 
>>> 'abc' ind 


True 


>>> im 只 能 用 来 考量 是 否 有 键 (Jey) ,不 能 告诉 您 是 否 有 值 (value) 。 


: >>>0.1 ind : 


1.4.4 Python 流程 控制 


前 面 几 个 小 节 的 代码 示例 都 是 按照 正常 键入 的 顺序 依次 执行 的 ,这 是 最 为 常见 的 
Python 程序 执行 流程 。 然 而 ,有 一 些 情况 下 ,我 们 需要 选择 执行 或 者 重复 执行 某 个 代码 
片段 。 这 样 就 需要 通过 一 些 特 殊 的 流程 控制 ,使 得 解释 需 可 以 跳跃 甚至 回溯 代码 ,比较 篆 
见 的 包括 分 文 语 句 (Cif) 和 循环 控制 (for) 。 
。 分 支 语句 (if) : 很 多 情况 下 ,需要 程序 根据 不 同 的 情况 对 代码 作出 选择 性 执行 ,这 
就 需要 分 文 语句 的 参与 。 与 分 文 语句 紧密 相连 的 数据 类 型 和 操作 类 型 分 别 是 布 
尔 值 与 逻辑 运算 ,常见 几 种 语法 结构 如 下 。 

if 布 尔 值 /表达 式 : 

【 制 表 符 ] 执 行 分 支 (可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 


【 制 表 符 】… 

else: 

Ci IAT AX X 可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 
【 制 表 符 】… 


或 者 
if 布 尔 值 /表达 式 : 
【 制 表 符 ] 执 行 分 支 1 可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 


【 制 表 符 】… 
elif 布 尔 值 /表达 式 : 
【 制 表 符 ] 执 行 分 支 X 可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 


WRF 


【 制 表 符 了 执行 分 支 X 可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 
(HREF 


解释 器 会 依次 询问 if 与 elif 后 面 的 布尔 值 或 者 反馈 布尔 值 的 表达 式 , 一 旦 其 中 任何 
一 个 为 真 , 便 会 执行 对 应 的 多 行 分 支 语 句 ; 如 果 其 中 没有 任何 一 个 为 真 , 则 执行 else 对 应 
的 语句 , 详 见 代 码 8。 


| 代码 8. 分 支 语 名 代码 样 例 
>>># 首 先 将 True 的 布尔 值 赋予 变量 b. 


>>> b= True 


>>># 然 后 使 用 分 支 语 句 ifelsefH t. 
»»»ifb: 

>>> print "It's True!" 

>>> else: 

>>> print "It's False!" 

>>> 


It's True! 


>>># 接 着 使 用 分 支 语句 if elif else fH £r ,将 False 的 布尔 值 赋予 变量 b, True 赋予 变量 c, 
>>> b= False 

>>> c= Tne 

>>> if b: 

>>> print "b is True!" 

»»»elif c: 

>>> print "c is True!" 

>>> else: 

>>> print "Both are False!" 


Pr dr 


c is True! 


>>># 将 False 的 布尔 值 赋予 变量 b, false 赋予 变量 c, 重复 一 遍 ,观察 结果 。 
>>> b= False 

>>> c= False 

>>> if bx: 

>>> print "b is True!" 
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>>> : 
Both are False! | 


。 循环 控制 (for) : 还 有 一 些 情况 ,需要 循环 使 用 某 些 代码 。 这 是 计算 机 程序 为 人 类 
提供 的 极 大 便利 。 同 时 ,之 前 介绍 的 成 员 运 算 符 (in) 也 会 参与 到 循环 控制 的 语法 
结构 中 ， 因为 我 们 经 常会 借助 遍历 来 完成 对 循环 语句 的 控制 。 Be D, AY — foi D i 
法 如 下 : 

for 临 时 变量 in 可 遍历 数据 结构 (列表 、 元 组 字典) : 

【 制 表 符 执行 语句 (可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 

【 制 表 符 了 … 


在 执行 循环 语句 时 ,临时 变量 会 逐个 获得 可 这 有 历数 据 结 构 中 的 值 ; 每 获取 到 其 中 一 个 


值 之 后 , 制 表 符 缩 进 的 所 有 请 名 会 执行 一 次 。 更 加 具体 的 代码 样 例 请 见 代码 9。 


| 代码 9; 循环 语句 代码 样 例 


>>># 对 字典 d 的 键 进行 循环 遍历 ,输出 每 组 键 值 对 。 
»»»d-[I: "*, "SEC": 0.1, O0CA-BOJ 

>>> for kind: 

>>> PE k, “:", di 


abc : 0.1 : 
0.4 : 80 | 


1.4.5 Python rae RE) il 


在 面 对 大 型 项 目的 时 候 , 随 着 堆砌 的 代码 越 来 越 多 ,编程 人 员 发 现 有 很 多 功能 重复 的 


模块 被 反复 地 键入 和 执行 。 因 此 ,大 家 开始 考虑 是 否 可 以 将 这 些 功 能 具体 且 被 经 常 使 用 
的 代码 段 ,从 程序 中 抽 离 出 来 并 单独 封装 。 于 是 ,因数 (Function)/ 模 块 (Module) 的 概念 
出 现在 了 编程 语言 里 。 在 对 困 数 /模块 的 设计 方面 ,我 们 可 以 向 函数 提供 必要 的 参数 输 
入 ,同时 可 以 从 函数 /模块 获取 所 需 的 返回 值 (return)。Python 采用 def 这 个 关键 词 来 定 


义 一 个 函数 /模块 ,如 代码 10 所 示 。 


| 代码 10. 函数 定义 和 调用 代码 样 例 


>>> 直 定义 一 个 名 叫 foo 的 函数 ,传人 参数 x. 
>>> def foo (x) : 


>>># 为 X 执 行 平方 运算 ,返回 所 得 的 值 , 同 时 注意 函数 体内 部 所 有 代码 一 律 缩 进 。 
>>> retum x * * 2 


>>># 调 用 函数 foo, 传 人 参数 值 为 8.0, 观 察 输出 ,结果 为 64.0, 
>>> foo (8.0) 


有 了 函数 /模块 的 帮助 ,我 们 便 可 以 更 好 地 组 织 和 规划 更 大 型 的 项 目 ,同时 也 节省 了 
代码 的 人 工 费 用 。 


1.4.6 Python 编程 库 ( 包 ) 的 导入 


当 读 者 已 经 学 会 如 何 通 过 封装 和 调用 自己 编写 的 函数 来 完成 较为 复杂 的 任务 的 时 
候 , 心 中 一 定 充满 了 成 就 感 。 特 别 是 ,如 果 对 于 自己 所 编写 的 某 些 函 数 模块 的 功能 和 效率 
都 信心 十 足 ,一 定 非 常 希望 可 以 和 其 他 人 分 享 ,并 且 也 乐意 别人 的 程序 重用 这 些 函 数 模 
块 。 这 样 一 来 就 激励 着 大 家 互通 有 无 ,第 三 方程 序 库 (Library) 或 者 包 (Package) 的 概念 
就 应 运 而 生 。 有 一 些 编程 库 默 认 配 置 在 Python 最 基本 的 解释 句 环 境 中 ,这 些 是 我 们 经 篆 
要 用 到 的 ;也 有 一 些 是 其 他 编程 爱好 者 所 开发 ,发 布 在 PyPICPython Package Index)? 

人 台 上 ,这 些 需要 我 们 自主 安装 ( 见 “1.3 Python 环境 配置 ” 节 ) 

事实 上 , 越 是 复 灯 的 大 型 项 目 越 不 可 能 从 零 开 始 编 程 ,更 不 可 能 要 求 一 位 程序 员 擅 长 
自行 编写 所 有 功能 的 代码 。 实 际 使 用 中 ,哪怕 是 执行 一 些 相 对 简单 的 数学 运算 ,我 们 甚至 
都 能 在 Python 语言 的 内 置 程序 库 中 找到 可 以 导入 (import) 并 且 使 用 的 包 。 下 面 笔者 在 
代码 11 中 列 出 了 几 种 导入 包 的 方法 。 
11: 程序 库 / 工 具 包 导入 代码 示例 
。 EREN import 导 入 math TA, 

>>> import math 

>>># 调 用 math 包 下 的 函数 ezp 求 自然 指数 。 


(D https://pypi. python. org/ 
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>>>#M (fron) math 工具 包 里 指定 导入 exp AR. 
>>> from math import exp 
>>>+ 直 接 使 用 函数 名 称 调用 ezp, 不 需要 声明 math 包 。 
>>> exp (2) 
7.38905609893065 


>>> 


>>>#M (from math 工 具 包 里 指定 导入 exp PR C ,3F H. XF ep 重新 命名 为 ep. 
>>> frcm math import exp as ep 
>>> + (8 FH PR C ep 的 临时 替代 名 称 调 用 。 
>>> ep(2) 
7.38905609893065 
>>> 


1.4.7 Python 基础 综合 实践 


这 里 ,我 们 提供 完整 的 " 良 / 恶 性 乳腺 癌 肿 瘤 预测 ?问题 的 Python 源 代 码 。 也 许 读 者 
仍然 对 其 中 的 许多 具体 细节 不 够 了 解 ,这 份 代 码 只 是 为 了 帮助 大 家 理 清 一 些 全 书 最 为 基 
本 的 Python 编程 要 素 ,方便 各 位 对 后 续 实 例 的 理解 和 实践 。 同 时 ,作者 会 在 有 必要 提供 
说 明 的 地 方 进行 注释 ,请 见 代码 12。 


| 代码 12: "RL/ RECTE ZL B Es Bh fé Yin I" c S8 +Ç 8 RE DI 


>>> # FA pandas 工 具 包 ,并 且 更 名 为 pa. 
>>> import pandas as pd 


>>># 调 用 pandas 工 具 包 的 read csv RA /模块 ,传人 训练 文件 地 址 参数 ,获得 返回 的 数据 并 且 存 


至 变量 df train。 
>>> df train-pd.read csv('../Datasets/Breast- Cancer/breast— cancer- train.csv') 


>>># 调 用 pandas 工 具 包 的 read csv BU /模块 ,传人 测试 文件 地 址 参数 ,获得 返回 的 数据 并 且 存 


至 变量 df test。 


>>> df test-pd.read csv('../Datasets/Breast- Cancer/breast- cancer- test.csv') 


" 
` 
. 
" 
` 
. 
` 
` 
" 
" 
` 
. 


>>> # YE HC 'Clump Thickness'5 'Ce11 Size" 作 为 特征 ,构建 测试 集中 的 正 负 分 类 样本 。 
>>> df test negative=df test.loc[df test['Type'] == 0][['Clump Thickness', 

'Ce11 Size']] 

>>> df test positive=df test.loc[df test['Type'] == 1] [['Clump Thickness', 

'Ce11 Size']] 


>>> 4 SA matplotlib 工 具 包 中 的 pyplot 并 简化 命名 为 plt. 
>>> import matplotlib.pyplot as plt 


>>># 绘 制图 ]-2 中 的 良性 肿瘤 样本 点 ,标记 为 红色 的 o. : 
»»»plt.scatter(df test negative['Clump Thickness'],df test negative['Cell Size'], marker- 'o', s= | 
200, c= 'red') | 
>>># 绘 制图 ]- 2 中 的 恶性 肿瘤 样本 点 ,标记 为 黑色 的 x, 
»»»plt.scatter(df test positive['Clump Thickness'],df test positive['Cell Size'], marker= 'x', s= | 
150, c- "black") | 


>>># 绘制 x,y 轴 的 说 明 。 

>>> plt.xlabel ('Clump Thickness') 
»»»plt.ylabel('Cell Size") 

>>># 显 示 图 1-2. 

>>>plt.show () 


>>> 45A nmpy 工 具 包 ,并 且 重 命名 为 np. 

>>> import nunpy as np 

>>> # AH nmpy 中 的 random PR 2C BË OLR FE BL Zk ÉS RPE HI HK 3⁄ , 
>>> interoept- np. randam.randam([1]) 

>>> coef- np.randam. random ( [2] ) 

>>> Le np.arange (0, 12) 

>>> ly= (intercept -1x * coef[0]) / coef[1l] 

>>># 绘制 一 条 随机 直线 。 

>>> plt.plot (lx, ly, c= 'yellow') 


>>># 绘 制图 1-3. : 
>>>plt.scatter (df test negative['Clump Thickness'],df test negative['Cell Size'], marker- 'o', s= : 
200, c= 'red") : 
>>>plt.scatter (df test positive['Clump Thickness'],df test positive['Cell Size'], marker- 'x', s= : 
150, c= 'black') 
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>>>plt.xlabel ('C1urp Thickness') 
>>> plt.ylabel ("Cell Size") 
>>> plt.show () 


>>> #H A skleam 中 的 逻辑 斯 带 回归 分 类 器 。 
>>> fram sklearn.linear model import IcgisticRegression 
>>> lr LogisticRegressicn () 


>>># 使 用 前 10 条 训练 样本 学 习 直 线 的 系数 和 截 距 。 

>>> lr.fit (Gf train[['Clump Thickness', 'Cell Size']][:10], df _train["Type"] 

[:10]) : 
>>> print 'Testing accuracy (10 training samples):', lr.score(df test[['Clump Thickness', 'Cell Size 
']], df test['Type']) | 
Testing accuracy (10 training samples): 0.868571428571 


>>> interoept- 1r. intercept _ 
>>> coe Ir.coef [0, :] 


>>># 原 本 这 个 分 类 面 应 该 是 lx x coef[0] + ly * coef[1] + intercept=0, RHF 2 维 平面 上 之 : 
后 ,应 该 是 : : 
>>> ly = (- intercept - 1x * coef[0]) / coef [1] 


>>># 绘 制图 1— 4, 

>>>plt.plot (1x, ly, c= 'green') 

>>>plt.scatter (df test negative['Clump Thickness'],df test negative['Cell Size'], marker- 'o', s= 
200, c= 'red') 

>>>plt.scatter(df test positive['Clurmp Thickness'],df test positive['Cell Size'], marker- 'x', s= 
150, c- 'black') 

>>> plt.xlabel ("Clunp Thickness") 

>>> plt.ylabel ("Cell Size") 

>>> plt.show () 


>>> l= LogisticRegression () 

>>> HERRA VI FEAR 2 >J BAW RAMEE, 

>>> 1r.fit (Gf train[['Clump Thickness', 'Cell Size']], df. train["Type']) 3 
>>> print "Testing accuracy (all training samples) :', lr.score(df test[['Clurmp Thickness', "Cell Size : 
'1], df test ['Type']) | 


>>> intercept= lr.interoept _ 
»»»coef-lr.coef [0, :] 
>>> ly = (-intercept — lx * coef[0]) / coef [1] 


>>># 绘 制图 1-5. 

>>> plt.plot (lx, ly, c= 'blue') i 
>>> plt.scatter (df test negative['Clurp Thickness'],df test negative['Cell Size'], marker- 'o', s= ! 
200, c= 'red') : 
>>>Plt.scatter (Gf test positive['Clurp Thickness'],df test positive['Cell Size'], marker- 'x', s= | 
150, c= 'black!) | 
>>> plt.xlabe1 ('Clump Thickness") 

>>> plt.ylabel ("Cell Size") 


>>> plt.show() | 


» 1.5 = 7 / 小 结 


作为 全 书 的 起 始 章节 ,作者 希望 向 各 位 读者 提供 足够 的 理论 和 实践 知识 。 

从 理论 角度 上 讲 ,我 们 在 “1. 1 机 器 学 习 综 述 ” 节 与 “1. 2 Python 编程 库 ” 节 中 向 大 家 
交代 了 : 

(1) 什么 是 机 器 学 习 ; 

(2) 机 器 学 习 的 三 要 素 ; 

(3) 为 什么 使 用 Python 来 实践 机 器 学 习 ; 

(4) 本 书 预 期 使 用 哪些 Python 的 编程 库 进 行 机 需 学 习 的 快速 实践 。 

从 实践 角度 上 讲 ,“1. 3 Python 环境 配置 ? 节 与 “1. 4 Python 编程 基础 ” 节 为 大 家 
介绍 : 

(1) 针对 不 同 操作 系统 平台 ,提供 了 非常 话 细 的 编程 环境 配置 步骤 ; 

(2) 足以 理解 和 实践 本 书 代 码 的 Python 编程 基础 ; 

(3) 一 份 完整 的 用 于 机 器 学 习 综 合 实践 的 代码 样 例 。 

期 竺 大 家 学 习 愉 快 , 本 章 所 有 数据 与 代码 示例 都 可 以 通过 如 下 链接 下 载 。 

http://pan. baidu. com/s/1dENAUTr 

http://pan. baidu. com/s/lgeN6QbD 
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在 本 章 ,我 们 将 使 用 大 量 实 例 和 数据 ,着重 介绍 两 类 最 为 广泛 使 用 的 机 器 学 习 模 型 
(监督 学 习 经 典 模型 与 无 监督 学 习 经 典 模型 ) 的 使 用 方法 .性 能 评价 指标 以 及 优 缺 点 。 

对 于 每 一 类 经 典 模型 ,都 将 从 模型 简介 数据 描述 .编程 实践 .性 能 测评 以 及 特点 分 析 
5 ^ ff SE at ETT PGA 


y 21 监督 学 习 经 典 模型 


我 们 曾 在 第 1 章 中 提 到 过 :“ 机 器 学 习 中 监督 学 习 模 型 的 任务 重点 在 于 ,根据 已 有 经 
验 知识 对 未 知 样本 的 目标 /标记 进行 预测 。 根 据 目 标 预 测 变 量 的 类 型 不 同 ,我 们 把 监督 学 
习 任 务 大 体 分 为 分 类 学 习 与 回归 预测 两 类 。” 

尽管 如 此 ,我 们 仍然 可 以 对 它们 的 共同 点 进行 归纳 ,整理 出 如 图 2-1 所 示 的 监督 学 习 
任务 的 基本 架构 和 流程 : 首先 准备 训练 数据 ,可 以 是 文本 .图像 .音频 等 ;然后 抽取 所 需要 
的 特征 ,形成 特征 向 量 (Feature Vectors); 接 着 ,把 这 些 特征 向 量 连同 对 应 的 标记 /目标 
(Labels) 一 并 送 入 学 习 算 法 (Machine Learning Algorithm) 中 ,训练 出 一 个 预测 模型 
(Predictive Model) ;然后 ,采用 同样 的 特征 抽取 方法 作用 于 新 测试 数据 ,得 到 用 于 测试 的 
特征 向 量 ; 最 后 ,使 用 预测 模型 对 这 些 待 测试 的 特征 向 量 进行 预测 并 得 到 结果 (Expected 
Label) 。 

在 “2. 1. 1 分 类 学 习 ” 节 中 ,为 了 展现 其 广泛 的 应 用 环境 ,对 于 每 一 种 分 类 学 习 模 型 ， 
我 们 都 会 使 用 不 同 的 任务 以 及 数据 样 例 进行 说 明 。 在 逐渐 掌握 这 些 基本 分 类 模型 的 使 用 
方法 之 后 ,会 在 “2.1.2 回归 预测 ” 节 中 集中 解决 一 个 相同 的 问题 并 使 用 一 套 相 同 的 数据 
样 例 , 比 较 不 同 回归 模型 的 性 能 差异 ;同时 也 可 以 让 读者 体验 到 不 断 尝试 不 同 模型 ,进而 
改进 学 习性 能 的 乐趣 。 
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2.1.1 分 类 学 习 


分 类 学 习 是 最 为 常见 的 监督 学 习 问 题 ,并 且 其 中 的 经 典 模型 也 最 为 广泛 地 被 应 用 。 
其 中 ,最 基础 的 便 是 二 分 类 (Binary Classification) 问题 , 即 判 断 是 非 , 从 两 个 类 别 中 选择 
一 个 作为 预测 结果 ; 除 此 之 外 还 有 多 类 分 类 (Multiclass Classification) 的 问题 , 即 在 多 于 
两 个 类 别 中 选择 一 个 ;甚至 还 有 多 标签 分 类 (Multi-label Classification) 问题 ,与 上 述 二 分 
类 以 及 多 类 分 类 问题 不 同 , 多 标签 分 类 问题 判断 一 个 样本 是 否 同时 属于 多 个 不 同类 别 。 

在 实际 生活 和 工作 中 ,我们 会 遇 到 许 许多 多 的 分 类 问题 ,比如 ,医生 对 肿瘤 性 质 的 判 
定 ; 邮 政 系 统 对 手写 体 邮 编 数 字 进 行 识 别 ; 互 联网 资讯 公司 对 新 闻 进 行 分 类 ;生物 学 家 对 
物种 类 型 的 鉴定 ;甚至 ,我 们 还 能 够 对 某 些 大 灾难 的 经 历 者 是 否 生 还 进行 预测 等 。 


2.1.1.1 线性 分 类 器 


。 模型 介绍 : 线性 分 类 器 (Linear Classifiers) ,顾名思义 ,是 一 种 假设 特征 与 分 类 结 
果 存 在 线性 关系 的 模型 。 这 个 模型 通过 累加 计算 每 个 维度 的 特征 与 各 自 权 重 的 
乘积 来 帮助 类 别 决策 。 


© 图 片 来 自 于 http://www. astroml. org 
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如 果 我 们 定义 x =< rsrsr, 福来 代表 维特 征 列 向 量 2 了 ,同时 用 维 列 向 量 w 
=< w w w, 二 来 代表 对 应 的 权重 ,或 者 叫做 系数 (Coefficient); 同 时 为 了 避免 其 
过 坐标 原点 这 种 硬性 假设 ,增加 一 个 截 距 (Intercept) 5。 由 此 这 种 线性 关系 便 可 以 表达 为 

f(w,x,b)= w'!x +b (1) 
这 里 的 AFER, 取 值 范围 分 布 在 整个 实数 域 中 。 

然而 ,我 们 所 要 处 理 的 最 简单 的 二 分 类 问题 希望 AGE (0.1); 因此 需要 一 个 函数 把 原 

先 的 f € R 映射 到 (0,1)。 于 是 我 们 想到 了 光 辑 斯 蒂 (Logistic) ph 3: 


1 
g(z)= ite (2) 
这 里 的 z ER 并 且 g € (0.1) ,并 且 其 函数 图 像 如 图 2-2 所 示 。 


3 HE: PA 


2-2 ”逻辑 斯 蒂 函 数 图 像 


综 上 ,如 果 将 = HOW fF. 整合 方程 式 (1) 和 方程 式 (2) ,就 获得 了 一 个 经 典 的 线性 分 
类 器 ,逻辑 斯 蒂 回 归 模 型 2@(Logistic Regression) : 
1 u 1 
1+e 1 十 erce ste (3) 


从 图 2-2 中 便 可 以 观察 到 该 模型 如 何 处理 一 个 待 分 类 的 特征 回 量 : 如 果 z = 0, 那么 


hwa (x)= g(f (wx,b))= 


D 拓展 小 贴 士 10: 一 般 情 况 下 ,许多 机 器 学 习 或 者 线性 代数 的 相关 书籍 都 把 这 些 默认 为 列 向 量 。 
Q 拓展 小 贴 士 11: 这 里 需要 说 明 一 下 ,虽然 它 叫做 “回归 ”模型 ,但 是 事实 上 这 只 是 一 种 约定 俗 成 的 称谓 ,事实 上 它 仍然 是 一 种 经 典 
的 分 类 模型 。 


g — 0.5; # z < 0 lll g — 0.5, 这 个 特征 向 量 被 判别 为 一 类 ;反之 , 若 z 二 0, 则 g 二 0.5， 
其 被 归 为 另外 一 类 。 

当 使 用 一 组 mm 个 用 于 训练 的 特征 向 量 头 == 二 x! ,x?,…,x”" 记 和 其 所 对 应 的 分 类 目标 
yay sy acer 2 二 ,我 们 希望 逻辑 斯 蒂 模 型 可 以 在 这 组 训练 集 上 取得 最 大 似 然 估计 
(Maximum Likelihood) 的 概率 L(w,5)。 或 者 说 ,至 少 要 在 训练 集 上 表现 如 此 2: 


argmax L(w.5)— argmax [|| (^.,(6))* (1—4,4 (i) (4) 
wb web im] 


为 了 学 习 到 决定 模型 的 参数 (Parameters) , 即 系数 w AERE b, 我 们 普遍 使 用 一 种 精 

确 计算 的 解析 算法 和 一 种 快速 估计 的 随机 梯度 上 升 (Stochastic Gradient Ascend) $E i 9, 

这 里 我 们 不 会 过 多 介绍 这 些 算法 的 细节 ,有 兴趣 的 读者 可 以 自行 查阅 斯 坦 福 大 学 吴 恩 达 

(Andrew Ng) 教 授 的 机 器 学 习 课件 9S。 这 里 只 会 在 编程 实践 一 节 中 向 大 家 介绍 如 何 使 用 
这 两 种 算法 求解 模型 参数 。 

。 数据 描述 : 这 一 节 ,我 们 使 用 之 前 在 第 1 章 中 探讨 过 的 “ 良 /恶性 乳腺 癌 肿 瘤 预测 ” 

数据 为 例子 ,来 实践 这 一 节 所 讲解 的 逻辑 斯 蒂 回 归 分 类 器 。 与 第 1 章 不 同 的 是 ， 

本 次 将 完整 地 使 用 该 数据 所 有 的 特征 作为 训练 分 类 需 参 数 的 依据 ,同时 采用 更 为 

精细 的 测评 指标 对 模型 性 能 进行 评价 。 原 始 数据 的 下 载 地 址 为 : https:// 


archive. ics. uci. edu/ml/machine-learning-databases/ breast-cancer-wisconsin/ 。 


根据 其 数据 描述 : 


Nunber of Instances: 699 (as of 15 July 1992) 
Nunber of Attributes: 10 plus the class attribute 
Attribute Information: (class attribute has been moved to last colum) 


# Attribute Domain 
1. Sample code mmber id mmber 
2. Clunp Thickness 1-10 
3. Uniformity of Cell Size 1-10 
4. Uniformity of Cell Shape 1-10 
5. Marginal Adhesion 1-10 


Q 拓展 小 贴 士 12: 当 读 者 阅读 到 本 书 的 第 3 章 ,就 会 进一步 明白 为 什么 这 里 这 样 表 述 。 事 实 上 ,任何 模型 在 训练 集 上 的 表现 都 不 一 
定 能 够 代表 其 最 终 在 未 知 待 测 数 据 集 上 的 性 能 ;但 是 ,至 少 要 先 保 证 模型 可 以 被 训练 集 优化 。 

Q 拓展 小 贴 士 13: 事实 上 ,不 管 是 随机 梯度 上 升 (SGA) 还 是 随机 梯度 下 降 (SGD) ,都 隶属 于 用 梯度 法 迭代 渐进 估计 参数 的 过 程 。 梯 
度 上 升 用 于 目标 最 大 化 ,梯度 下 降 用 于 目标 最 小 化 。 在 线性 回归 中 ,我 们 会 接触 优化 目标 最 小 化 的 方程 。 

@ http://cs229. stanford. edu/notes/cs229-notes1. pdf 
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6. Single Epithelial cell size 1-10 

7. Bare Nuclei 1-10 

8. Bland Chramatin 1-10 

9. Norma1 Nucleoli 1-10 

10. Mitoses 1-10 

11. Class: (2 for benign, 4 for malignant) 


Missing attribute values: 16 
There are 16 instances in Groups 1 to 6 that contain a single missing 
(i.e., unavailable) attribute value, now denoted by "?". 


Class distribution: 
Benign: 458 (65.59) 
Malignant: 241 (34.5*) 


我 们 得 知 该 原始 数据 共有 699 条 样本 ,每 条 样本 有 11 列 不 同 的 数值 : 1 列 用 于 检索 的 id, 
9 列 与 肿瘤 相关 的 医学 特征 ,以 及 一 列表 征 肿 瘤 类 型 的 数值 。 所 有 9 列 用 于 表示 肿瘤 医 
学 特质 的 数值 均 被 量化 为 1 一 10 之 间 的 数字 ,而 肿瘤 的 类 型 也 借 由 数字 2 和 数字 4 分 别 
指 代 民 性 与 恶性 。 不 过 ,这 份 数 据 也 声明 其 中 包含 16 个 缺失 值 ,并 且 用 “?” 标 出 。 事 实 
上 ,缺失 值 问题 广泛 存在 于 现实 数据 中 ,也 是 机 占 学 习 任 务 无 法 回避 的 问题 ;然而 ,考虑 到 
读者 学 习 本 书 的 渐进 性 ,我 们 在 本 章 的 所 有 实践 都 会 将 数据 预 处 理 后 供 各 位 使 用 。 对 于 
存在 缺失 值 的 数据 ,都 暂时 了 于 以 忽略 ;而 用 于 处 理 缺 失 数 据 的 方法 会 在 后 续 为 大 家 介绍 。 
下 面 这 段 代码 用 于 预 处 理 原始 肿瘤 数据 : 


| 代码 13: B / EHE FL BR A A Ti b E 


>>>#SA panes 与 nmpy LAA. 
>>> import pandas as pd 
>>> import numpy as np 


>>># 创 建 特征 列表 。 : 
>>> colum nes ['Sample code nmiber'，'Clump Thickness', 'Uniformity of Cell Size', 'Unifomity of: 
Cell Shape', "Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', "Bland chramatin', ' 
Normal Nucleoli', 'Mitoses', 'Class'] 


>>># 使 用 pandas.read csv PR CA, H. EX F ie GB XE RHE o 


>>> data- pd.read csv ('https://archive.ics.uci.edu/ml/machine- learning- 
databases/breast- cancer- wisconsin/breast- cancer- wisconsin.data', names- 
colum names) 


>>> $45 2 替换 为 标准 缺失 值 表示 。 

>>> data= data.replace (to replace- '? ', value- np.nan) 
>>> 志 丢弃 带 有 缺失 值 的 数据 (只 要 有 一 个 维度 有 缺失 ) 。 
>>> data= data.dropna (how- 'any') 

>>> # fai 1H data 的 数据 量 和 维度 。 

>>> data.shape 


(683, "i | 


如 代码 13 的 输出 所 示 , 经 过 简单 的 处 理 之 后 ,无 缺失 值 的 数据 样本 共有 683 条 ,特征 
包括 细胞 厚度 、 细 胞 大 小 、 形 状 等 9 个 维度 ,并 且 每 个 维度 的 特征 均 量化 为 1 一 10 之 间 的 
数值 进行 表示 ,如 图 2-3 ran. 


Sample code Uniformity of | Uniformity of Marginal Single Epithelial Bare | Bland Normal — lass 
number Cell Size Cell — Adhesion Cell Size Nuclei |Chromatin |Nucleoli 

omo — | —— 01 —— | 2 p P qu pq P | 
UL is 


EE CE E a a 
spoe e —j —p h j ke sp m7 h p) 
om j h E ux quoc m p ues 


图 2-3 和 良 /恶性 乳腺 癌 肿 瘤 数据 样 例 


由 于 原始 数据 没有 提供 对 应 的 测试 样本 用 于 评估 模型 性 能 ,因此 需要 对 市 有 标记 的 
数据 进行 分 割 。 通 常情 况 下 ,25%‰ 的 数据 会 作为 测试 集 , 其 余 75% 的 数据 用 于 训练 ,如 代 
码 14 rma. 


| 代码 14: 准备 良 /恶性 乳腺 癌 肿 瘤 训练 、 测试 数据 


>>># 使 用 skleam.cross valiation H ff train test spl 让 模块 用 于 分 割 数据 。 
>>> fram sklearn.cross validation import train test split 
>>># 随 机 采样 25% 的 数据 用 于 测试 , 剩 下 的 75% 用 于 构建 训练 集合 。 


>>>X train, X test, y train, y test-train test split(data[colum names[1:10]], data[oolum names 


[10]], test size- 0.25, randum state- 33) 


>>># 查 验 训练 样本 的 数量 和 类 别 分 布 。 
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>>>y train.value counts () 
2 344 

4 168 

Name: Class, dtype: int64 


>>># 查 验 测试 样本 的 数量 和 类 别 分 布 。 
>>> y test.value counts () 
2 100 


4 T 


Name: Class, dtype: int64 


试 样本 有 171 £ C100 条 民 性 肿瘤 数据 .71 条 恶性 肿瘤 数据 ) 。 
。 编程 实践 : 接 下 来 ,我 们 在 代码 15 中 使 用 逆 辑 斯 带 回 归 与 随机 梯度 参数 估计 两 种 


方法 对 上 述 处 理 后 的 训练 数据 进行 学 习 , 并 且 根 据 测 试 样本 特征 进行 预测 。 


| 代码 15: 使 用 线性 分 类 模型 从 事 良 /恶性 肿瘤 预测 任务 


>>> # A skleam.preprocessing H & A. Standardscaler。 

>>> from skleam .preprocessing import StandardScaler 

>>> #)\ skleam.linear model Hi # A IogisticRegression 5j SGpClassifier, 
>>> fram skleam.linear model import logistichRegression 

>>> fram skleam.linear model import SGDClassifier 


>>># 标 准 化 数据 ,保证 每 个 维度 的 特征 数据 方差 为 1, 均 值 为 0。 使 得 预测 结果 不 会 被 某 些 维度 


过 大 的 特征 值 而 主导 。 

>>> ss= Standardscaler () 

>>>X train-ss.fit transfom(X train) 
>>> X_test= ss.transform( test) 


>>># 初 始 化 LogisticRegressim 与 sGpclassifier, 

>>> lr= LogisticRegression () 

>>> sgdc= SGDClassifier () 

>>> FH LogisticRegression 中 的 fit 函数 /模块 用 来 训练 模型 参数 。 
>>> lr.fit@ train, y train) 


>>># 使 用 训练 好 的 模型 IT 对 x test 进 行 预测 ,结果 储存 在 变量 lr y predict 中 。 


>>> Ir y predict- lr.predict (X test) 


Se E ,我 们 用 于 训练 样本 共有 512 2& (344 条 良性 肿瘤 数据 168 条 恶性 肿瘤 数据 ) , 测 


>>># 调 用 scpclassifier 中 的 fit 函数 /模块 用 来 训练 模型 参数 。 
>>> sqdc. fit X train, y train) 
>>># 使 用 训练 好 的 模型 sac 对 x test HET TM ,结果 储存 在 变量 sg y predict 中 。 


>>> sgk y predict- sgdc.predict (X test) | 


° 性 能 测评 : 在 代码 15 的 最 后 ,我们 分 别 利 用 LogisticRegression 与 SGDClassifier 

针对 171 条 测试 样本 进行 预测 工作 。 由 于 这 171 条 测试 样本 拥有 正确 标记 ,并 记 

录 在 变量 y_test 中 ,因此 非常 直观 的 做 法 是 比 对 预测 结果 和 原本 正确 标记 ,计算 

171 条 测试 样本 中 ,预测 正确 的 百分比 。 我 们 在 把 这 个 百分比 称 作 准确 性 
(Accuracy) ,并 且 将 其 作为 评估 分 类 模型 的 一 个 重要 性 能 指标 。 

然而 ,在 许多 实际 问题 中 ,我 们 往往 更 加 关注 模型 对 某 一 特定 类 别 的 预测 能 力 。 这 

时 ,准确 性 指标 就 变 得 党 统 了 。 比 如 ,在 “ 恨 / 恶 性 肿瘤 预测 任务 "里 ,医生 和 患者 往往 更 加 

关心 有 多 少 恶 性 肿瘤 被 正确 地 诊断 出 来 ,因为 这 种 肿瘤 更 加 致命 。 也 就 是 说 ,在 二 分 类 任 

务 下 ,预测 结果 (Predicted Condition) 和 正确 标记 (True Condition) 之 间 存 在 4 种 不 同 的 

组 合 , 构 成 混 消 矩阵 (Confusion Matrix). 如 图 2-4 所 示 。 如 果 恶 性 肿瘤 为 阳性 

(Positive) ,良性 肿瘤 为 阴性 (Negative) ,那么 ,预测 正确 的 恶性 肿瘤 即 为 真 阳性 (True 

Positive) ,预测 正确 的 恨 性 肿瘤 为 直 阴 性 (True Negative) ; Ig AS ft R TE Hb dài C Condition 


True positive rate (TPR), 


Positive likelihood ratio 


Sensitivity, Recall zum 
— _ > True positive (LR+) = FpR 
> Condition positive | 


False negative rate 


Xx ion positive X Condition negative 


2-4 混淆 矩阵 示例 了 ( 见 彩 图 ) 


Qo 片 来 自 维基 百科 : https://en. wikipedia. org/wiki/Precision and recall 


;42 : dha U 
negative) , 误 判 为 恶性 肿瘤 (Predicted condition positive) 的 为 假 阳 性 (False Positive) ; 而 
实际 是 恶性 肿瘤 ,但 是 预测 模型 没有 检测 出 来 , 则 为 假 阴 性 (False Negative)。 事 实 上 , 医 
生 和 病 患 最 不 愿 看 到 的 是 有 假 阴 性 (False Negative) 的 结果 ,因为 这 种 误诊 会 耽误 病 患 的 
治疗 ,进而 危及 生命 。 

因此 ,除了 准确 性 (Accuracy) 之 外 ,我 们 还 引入 了 两 个 评价 指标 ,分 别 是 召回 率 
(Recall) 和 精确 率 (Precision)。 它 们 的 定义 分 别 是 : 


Accuracy= 
# (True positive) + # (True negative) (5) 
+ (True positive) + € (True negative) + € (False positive) + # (False negative) i 
mW # (True positive) 
inci + (True positive) + # (False positive) 6) 
te + (True positive) (7) 


3t (True positive) + # (False negative) 
Htp, # (True positive) 代表 真 阳 性 样本 的 数量 ,其余 以 此 类 推 。 此 外 ,为 了 综合 考量 召 
回 率 与 精确 率 ,我 们 计算 这 两 个 指标 的 调和 平均 数 ,得 到 Fl 指标 (Fl measure); 
F1 measure=— ——À1— (8) 
Precision Recall 
式 (8) 之 所 以 使 用 调和 平均 数 ,是 因为 它 除 了 有 具备 平均 功能 外 ,还 会 对 那些 召回 率 和 精确 
率 更 加 接近 的 模型 给 予 更 高 的 分 数 ;而 这 也 是 我 们 所 期 得 的 ,因为 那些 召回 率 和 精确 率 差 
距 过 大 的 学 习 模 型 ,往往 没有 足够 的 实用 价值 。 
回 到 本 节 所 讨论 的 任务 ,对 于 乳腺 癌 肿 痛 预 测 的 问题 ,我 们 显然 更 加 关注 召回 率 , 也 
就 是 应 该 被 正确 识别 的 恶性 肿瘤 的 百分比 。 对 于 召回 率 更 高 的 预测 模型 ,医生 和 患者 会 
更 为 信赖 并 给 予 更 多 关注 。 因 此 ,让 我 们 用 代码 16 来 更 加 细致 地 分 析 一 下 两 个 模型 在 上 


述 4 个 指标 (准确 性 、 召 回 率 、 精 确 率 以 及 下 1 指标 ) 的 表现 情况 。 


| “代码 16: 使 用 统 性 分 类 模型 从 事 良 /恶性 肿瘤 预测 任务 的 性 能 分 析 
| >>># 从 skleam.metrics 里 导入 classification report Bi J , 
>>> fram skleamn.metrics import classification report 


>>># 使 用 逻辑 斯 蒂 回 归 模 型 自 带 的 评分 函数 score 获 得 模型 在 测试 集 上 的 准确 性 结果 。 
>>> print "Accuracy of IR Classifier:', lr.score(X test, y test) 

>>> # A) FA classification report 模 块 获得 IogisticRegression 其 他 三 个 指标 的 结果 。 

>>> print classification report(y test, lr y predict, target names- ['Benign', 'Malignant']) 


第 2 章 基础 篇 : 43 : 


. 
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Benign 0.99 0.99 0.99 100 
Malignant 0.99 0.99 0.99 7 
avg / total 0.99 0.99 0.99 171 


>>># 使 用 随机 梯度 下 降 模型 自 带 的 评分 函数 score 获 得 模型 在 测试 集 上 的 准确 性 结果 。 
>>> print 'Accuarcy of SGD Classifier:', sgdc.score(X test, y test) 

>>> +A FA classification report Bi J 3k 48 Scpclassifier 其 他 三 个 指标 的 结果 。 

>>> print classification report(y test, sgdc y predict, target names- ['Benign', 'Malignant']) 


Accuarcy of SGD Classifier: 0.953216374269 
precision recall fl- score support 
Benign 0.93 0.99 0.96 100 
Malignant 0.98 0.90 0.94 71 


avg / total 0.95 0.95 0.95 171 | 


阅读 了 代码 16 输出 的 报告 之 后 ,我 们 可 以 发 现 :; LogisticRegression 比 起 
SGDClassifier 在 测试 集 上 表现 有 更 高 的 准确 性 (Accuracy)。 这 是 因为 Scikit-learn PH 
用 解析 的 方式 精确 计算 LogisticRegression 的 参数 ,而 使 用 梯度 法 估计 SGDClassifier 的 
参数 。 

° 特点 分 析 : 线性 分 类 胡可 以 说 是 最 为 基本 和 常用 的 机 融 学 习 模 型 。 尽 管 其 受 限 

于 数据 特征 与 分 类 目标 之 间 的 线性 假设 ,我 们 仍然 可 以 在 科学 研究 与 工程 实践 中 
把 线性 分 类 器 的 表现 性 能 作为 基准 。 这 里 所 使 用 的 模型 包括 LogisticRegression 
与 SGDClassifier。 相 比 之 下 ,前 者 对 参数 的 计算 采用 精确 解析 的 方式 ,计算 时 间 
长 但 是 模型 性 能 略 高 ;后 者 采用 随机 梯度 上 升 算法 估计 模型 参数 ,计算 时 间 短 但 
是 产 出 的 模型 性 能 略 低 。 一 般 而 言 , 对 于 训练 数据 规模 在 10 万 量 级 以 上 的 数据 ， 
考虑 到 时 间 的 耗 用 ,笔者 更 加 推荐 使 用 随机 梯度 算法 对 模型 参数 进行 估计 。 


2.1.1.2 支持 向 量 机 (分 类 ) 


模型 介绍 : 在 第 1 章 的 “ 恨 / 恶 性 乳腺 癌 肿 瘤 预测 ?的 例子 中 ,曾经 使 用 多 个 不 同 颜 
色 的 直线 作为 线性 分 类 的 边界 。 同 样 ,如 图 2-5 所 示 的 数据 分 类 问题 ,我 们 更 有 
无 数 种 线性 分 类 边界 可 供 选 择 。 


: 44: 


Pyhom 机 器 学 习 及 实践 


图 2-5 包括 支持 向 量 机 分 类 器 在 内 的 多 种 分 类 直线 ( 见 彩 图 ) 


2-5 中 提供 了 三 种 颜色 的 直线 ,用 来 划分 这 两 种 类 别 的 训练 样本 。 其 中 绿色 直线 
Hi 在 这 些 训 练 样本 上 表现 不 佳 ,本 身 就 带 有 分 类 错误 ;橙色 直线 Hy 和 红色 直线 H: 如果 作 
为 这 个 二 类 分 类 问题 的 线性 分 类 模型 ,在 训练 集 上 的 表现 都 是 完美 的 。 

然而 ,拓展 小 贴 士 4 和 拓展 小 贴 士 12 中 都 曾 提 到 过 ,由 于 这 些 分 类 模型 最 终 都 是 要 
应 用 在 未 知 分 布 的 测试 数据 上 ,因此 我 们 更 加 关注 如 何 最 大 限度 地 为 未 知 分 布 的 数据 提 
供 足 够 的 待 预测 空间 。 比 如 ,如 果 有 一 个 黑色 样本 稍稍 向 右 偏 离 橙色 直线 ,那么 这 个 黑色 
样本 很 有 可 能 被 误 判 为 白色 样本 ,造成 误差 ;而 红色 直线 在 空间 中 的 分 布 位 置 依然 可 以 为 
更 多 “稍稍 偏离 ”的 样本 提供 足够 的 “容忍 度 ”。 因 此 ,我 们 更 加 期 望 学 习 到 红色 的 直线 作 
为 更 好 的 分 类 模型 。 

XC ds I0] BE DL PAE 2$ (Support Vector Classifier) , 便 是 根据 训练 样本 的 分 布 ,搜索 所 有 
可 能 的 线性 分 类 器 中 最 佳 的 那个 了 。 进 一 步 仔细 观察 图 2-5 中 的 红色 直线 ,我 们 会 发 现 决 
定 其 直线 位 置 的 样本 并 不 是 所 有 训练 数据 ,而 是 其 中 的 两 个 空间 间隔 最 小 的 两 个 不 同类 
别 的 数据 点 ,而 我 们 把 这 种 可 以 用 来 真正 帮助 决策 最 优 线性 分 类 模型 的 数据 点 叫做 “支持 
可 量 ”。 惕 辑 斯 蒂 回 归 模 型 在 训练 过 程 中 由 于 考虑 了 所 有 训练 样本 对 参数 的 影响 ,因此 不 
一 定 获 得 最 佳 的 分 类 器 。 

。 数据 描述 : 邮政 系统 每 天 都 会 处 理 大 量 的 信件 ,最 为 要 紧 的 一 环 是 要 根据 信件 上 


Q 拓展 小 贴 士 14: 这 里 所 说 的 “最 佳 不 是 绝对 的 。 换 句 话说 ,不 是 在 所 有 的 数据 集 上 ,支持 向 量 机 的 性 能 表现 就 一 定 优 于 普通 的 线 
性 模型 或 者 其 他 模型 。 这 里 的 假设 是 : 如 果 未 知 的 待 测 数据 也 如 训练 数据 一 样 分 布 ,那么 的 确 支 持 向 量 机 可 以 帮助 我 们 找到 最 佳 的 分 类 
器 。 然 而 ,很 多 实际 应 用 数据 总 是 有 偏差 的 。 
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的 收 信 人 邮编 进行 识别 和 分 类 ,以 便 确 定 信件 的 投 送 地 。 原 本 这 项 任务 是 依靠 大 
量 的 人 工 来 进行 ,后 来 人 们 答 试 让 计算 机 来 其 代 人 工 。 然 而 ,因为 多 数 的 邮编 都 
是 手写 的 数字 ,并 且 样 式 各 异 , 所 以 没有 统一 编制 的 规则 可 以 很 好 地 用 于 识别 和 
分 类 。 机 需 学 习 兴 起 之 后 ,开始 逐渐 有 研究 人 员 重 新 考虑 这 项 任务 ,并 且 有 大 量 
的 研究 证 明 ,支持 向 量 机 可 以 在 手写 体 数字 图 片 的 分 类 任务 上 展现 民 好 的 性 能 。 
因此 在 这 一 节 , 我 们 要 使 用 支持 回 量 机 分 类 器 处 理 Scikit-learn 内 部 集成 的 手写 
体 数字 图 片 数据 集 炎 ,并 且 通 过 如 下 代码 提取 数据 : 


| 代码 17. 手写 体 数据 读 取 代码 样 例 


>>>#M skleam.datasets 里 导 人 手写 体 数 字 加 载 器 。 


>>> fram sklearn.datasets import load digits 
>>># 从 通过 数据 加 载 器 获得 手写 体 数字 的 数码 图 像 数据 并 储存 在 digits 变 量 中 。 


>>> digits= load digits () 
>>>## 检 视 数据 规模 和 特征 维度 。 


>>> digits.data.shape ! 
(L797L, 64L) | 


代码 17 的 输出 表明 : 该 手写 体 数字 的 数码 图 像 数 据 共 有 1797 条 ,并 且 每 幅 图 片 是 
H 8X8=64 的 像素 矩阵 表示 。 在 模型 使 用 这 些 像 素 矩 阵 的 时 候 , 我 们 习惯 将 2D 的 图 片 
像素 矩阵 逐 行 首尾 拼接 为 1D 的 像素 特征 向 量 。 这 样 做 也 许 会 损失 一 些 数 据 本 身 的 结构 
信息 ,但 是 遗憾 的 是 ,我 们 当下 所 介绍 的 经 典 模型 都 没有 对 结构 性 信息 进行 学 习 的 
8E 719, 

依照 惯例 ,对 于 没有 直接 提供 测试 样本 的 数据 ,我 们 都 要 通过 数据 分 割 获 取 75 96 的 
训练 样本 和 25% 的 测试 样本 ,代码 如 下 : 


| «ew 手写 体 数据 分 市 代码 样 全 O r 


>>># 从 sklearn.cross validation 中 导入 train test split 用 于 数据 分 割 。 
>>> fram skleam.cross validation import train test split 


© 拓展 小 贴 士 15: Scikit-learn 中 集成 的 手写 体 数字 图 像 仅 仅 是 https; //archive. ics. uci. edu/ml/datasets/Optical + Recognition + of 
十 Handwritten 十 Digits 的 测试 数据 集 。 我 们 将 在 后 面 “2. 2. 2. 1 主 成 分 分 析 ” 节 中 使 用 完整 的 数据 集 进 行 分 析 。 

© 拓展 小 贴 士 16: 虽然 本 书 所 介绍 的 大 部 分 模型 都 没有 处 理 结构 化 数据 信息 的 能 力 , 但 是 感 兴 趣 的 读者 可 以 跳跃 到 “4. 4 MNIST 
手写 体 数字 图 片 识 别 ” 节 ,了 解 一 些 用 于 处 理 这 些 结构 化 图 片 信息 的 当下 流行 的 深度 学 习 技 术 。 


46; : Piham 机 器 学 习 及 实践 


>>># 随 机 选取 758 的 数据 作为 训练 样本 ;其余 25% 的 数据 作为 测试 样本 。 : 
>>>X train, X test, y train, y test-train test split digits.data, digits.target, test . size= 0.25, 
randan state- 33) 


>>># 分 别 检视 训练 与 测试 数据 规模 。 
>>> y train.shape 

(1347L, ) 

>>> y test.shape 


(450L, ) | 


° 编程 实践 : 接 下 来 ,我 们 使 用 代码 18 所 产生 的 1347 条 样本 训练 基于 线性 假设 的 
文 持 回 量 机 模型 ,代码 如 下 : 


| 代码 19; 使 用 支持 向 量 机 (分 类 ) 对 手写 体 数字 图 像 进 4 识别 


>>> 4 JÀ skleam.preprocessing 里 导 人 数据 标准 化 模块 。 

>>> fram skleam.preprocessing import StandardScaler 

>>> # Á skleam.swm 里 导入 基于 线性 假设 的 支持 向 量 机 分 类 器 Linearsve, 
>>> from sklearn.svm inport DinearSVC 


>>># 从 仍然 需要 对 训练 和 测试 的 特征 数据 进行 标准 化 。 
>>> ss= Standardscaler () 

>>>X train-ss.fit transform(X train) 

>>> X test= ss.transform(X test) 


>>># 初 始 化 线性 假设 的 支持 向 量 机 分 类 器 Linearsvc, 

>>> Isvc LinearSVC () 

>>> # 进行 模型 训练 

>>> lsvc.fit (X train, y train) 

>>># 利 用 训练 好 的 模型 对 测试 样本 的 数字 类 别 进行 预测 ,预测 结果 储存 在 变量 y predict rh , 


>>> y predict- lsvc.predict (X test) 


° 性 能 测评 : “2.1.1.1 线性 分 类 需 ? 节 中 的 评价 指标 一 样 ,我 们 使 用 准确 性 召回 
率 、 精 确 率 和 Fl 指标 ,这 4 个 测度 对 支持 回 量 机 (分 类 ) 模 型 从 事 手 写 体 数字 图 像 
识别 任务 进行 性 能 评 佑 , 详 见 代码 20. 
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| 代码 20, 支持 向 量 机 (分 类 ) 模 型 对 手写 体 数码 图 像 识 别 能 力 的 评估 


>>># 使 用 模型 自 带 的 评估 阴 数 进行 准确 性 测评 。 


>>> print "The Accuracy of Linear SV is', lsvc.score X test, y test) 

The Accuracy of Linear SVC is 0.9 

>>> + 4 #K [8 FH sania eri classification report 模 块 对 预测 结果 做 更 加 详细 的 分 析 。 

>>> frm sklearn.metrics import classification report : 

»»»print classification report(y test, y predict, target names-digits.target names.astype(str)) ` 
precisian recall fl-score support : 


0.92 
0.96 
0.98 
0.93 
0.97 
0.94 
0.96 
0.92 
0.98 
0.95 


‘DD ows GO G 4 WN HP O 


avg / total 0.95 


通过 代码 20 BY dI EXER n DUXI «Se FF ln] BIL CAE 2S AY nj 8/6 Bë s de DE EC e P ii F 


1.00 
0.98 
1.00 
0.93 
1.00 
0.94 
0.98 
1.00 
0.84 
0.91 


0.95 


0.96 
0.97 
0.99 
0.93 
0.99 
0.94 
0.97 
0.96 
0.91 
0.93 


0.95 


ESRReSERSEER SH 


写 体 数字 识别 性 能 。 平 均 而 言 ,各 项 指标 都 在 95% EF 


在 这 里 需要 进一步 指出 的 是 : IA LEUR ARN FI 指标 最 先 适用 于 二 分 类 任务 ;但 
是 在 本 示例 中 ,我们 的 分 类 目标 有 10 个 类 别 , 即 0 一 9 的 10 个 数字 。 因 此 无 法 直接 计算 


上 述 三 个 指标 。 通 篆 的 做 法 是 , 逐 - 


的 类 别 看 做 阴性 ( 负 ) 样 本 ,这 样 一 来 ,就 创造 了 10 个 二 
在 对 待 多 类 分 类 任务 时 是 这 样 做 的 ,而 且 代 码 20 最 终 的 输出 也 证 明了 笔者 的 观点 。 

° 特点 分 析 : 支持 回 量 机 模型 曾经 在 机 需 学 习 研 究 领 域 葡 来 发 展 了 很 长 一 段 时 间 。 

主要 原因 在 于 其 精妙 的 模型 假设 ,可 以 带 助 我 们 在 海量 其 至 高 维度 的 数据 中 ,篇 

选 对 预测 任务 最 为 有 效 的 少数 训练 样本 。 这 样 做 不 仅 节 省 了 模型 学 习 所 需要 的 

数据 内 存 , 同 时 也 提高 了 模型 的 预测 性 能 。 然 而 ,要 获得 如 此 的 优势 就 必然 要 付 


- 评 佑 某 个 类 别 的 这 三 个 性 能 指标 : 


我 们 把 所 有 其 他 
分 类 任务 。 事 实 上 ,不 仅 学 习 模 型 
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出 更 多 的 计算 代价 (CPU 资源 和 计算 时 间 )。 因 此 ,请 读者 在 实际 使 用 该 模型 的 
时 候 , 权 街 其 中 的 利 刺 ,进而 达成 各 自 的 任务 目标 。 


2.1.1.3 朴素 贝 叶 斯 


。 模型 介绍 : 朴素 贝 叶 斯 (Naive Bayes) 是 一 个 非常 简单 ,但 是 实用 性 很 强 的 分 类 模 
型 。 不 过 ,和 上 述 两 个 基于 线性 假设 的 模型 (线性 分 类 器 和 支持 向 量 机 分 类 器 ) 不 
同 ,朴素 贝 叶 斯 分 类 器 的 构造 基础 是 贝 叶 斯 理论 。 
抽象 一 些 说 ,朴素 贝 叶 斯 分 类 器 会 单独 考量 每 一 维度 特征 被 分 类 的 条 件 概率 ,进而 综 
合 这 些 概率 并 对 其 所 在 的 特征 向 量 做 出 分 类 预测 。 因 此 ,这 个 模型 的 基本 数学 假设 是 : 
各 个 维度 上 的 特征 被 分 类 的 条 件 概 率 之 间 是 相互 独立 的 。 
如 果 采 用 概率 模型 来 表述 , 则 定义 x =< ar orn ar, > 为 某 一 维特 征 问 量 , y € 
{crscost** sce} AGATE In] it x PA 种 可 能 的 类 别 , 记 P(y = ci | x) 为 特征 向 量 x JB 
FRG c, 的 概率 。 根 据 式 (9) 的 贝 叶 斯 原理 : 


_ P( )P (y) 
P(y|x)- 2 CD y (9) 


我 们 的 目标 是 寻找 所 有 y € (6.0.06) 'P P(y | x) 最 大 的 , 即 argmax P (y | x); 


并 且 考 虑 到 P GO 对 于 同一 样本 都 是 相同 的 ,因此 可 以 忽略 不 计 。 所 以 ， 
argmaxP (y|x)=argmaxP (xl y)P (y) =—argmaxP (2) +22 nl y)P (y) (10) 
若 每 一 种 特征 可 能 的 取 值 均 为 0 或 者 1, 在 没有 任何 特殊 假设 的 条 件 下 ,计算 
P(zi,zz, sz, |y) 需 要 对 &x 2" 个 可 能 的 参数 进行 估计 : 
P (21 922 9°** z, |y)= Pri | y) P (2x2 Ii » y )P (23 xi zz s y) P (ae | 21 9X2 5 xy) 
(11) 
但 是 由 于 朴素 贝 叶 斯 模型 的 特征 类 别 条 件 独立 假设 ，P(z, | zyzz，…zriyy) 一 
P Gr, | y); 右 依 然 每 一 种 特征 可 能 的 取 值 只 有 2 种 ,那么 只 需要 估计 2kn 个 参数 , 即 P (>, 
=0|y=c),P(zm =1|y= ca) e, P(e, = 1| y=). 
为 了 估计 每 个 参数 的 概率 ,采用 如 下 的 公式 ,并 且 改 用 频率 比 近似 计算 概率 : 


P(z,— lig = Gi) _ # (=, = 1,y = cy) 
Ply = c) # (y =c) 


。 数据 描述 : FRI IIRA J IER Sz by wr ld FE FE X K PRY FE 3 
中 间 , 包 括 互 联网 新 闻 的 分 类 、 垃 圾 邮件 的 篇 选 等 。 本 节 中 ,我 们 将 使 用 经 典 的 
20 类 新 闻 文 本 作为 试验 数据 。 获 取 数据 的 代码 如 下 : 


P(z, =1| y= c,)= (12) 


| 代码 21. iX HX 20 类 新 闻 文 本 的 数据 细节 


>>># 从 skleam.datasets 里 导 人 新 闻 数 据 抓 取 器 fetch 20newsgroups, 

>>> fram skleam.datasets import fetch 20newsgroups 

>>># 与 之 前 预存 的 数据 不 同 , fetch 20newsgroups 需 要 即时 从 互联 网 下 载 数 据 。 
>>> news= fetch 20newsgroups (subset= 'all') 

>>># 查 验 数据 规模 和 细节 ，。 

>>> print len (news .data) 

>>> print news.data [0] 

18846 


Fram: Mamatha Devineni Ratnam <mr47+ @ andrew.am.edr 
Subject: Pens fans reactions 

Organization: Post Office, Carnegie Mellon, Pittsburgh, PA 
Lines: 12 

NNTP- Fosting- Host: po4.andrew.am.edu 


I am sure same bashers of Pens fans are pretty confused about the lack 

of any kind of posts about the recent Pens massacre of the Devils. Actually, 

Iam bit puzzled too and a bit relieved. However, I am going to put an end 

to nor- PIttsburghers' relief with a bit of praise for the Pens. Man, they 

are killing those Devils worse than I thought. Jagr just showed you why 

he is much better than his regular season stats. He is also a lot 

fo fun to watch in the playoffs. Bowman should let Jagr have a lot of | 
fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was. 
very disappointed not to see the Islanders lose the final 3 
regular season game. PENS RULE!!! u 


由 代码 21 的 输出 ,可 获知 该 数据 共有 18846 条 新 闻 ; 不 同 于 前 面 的 样 例 数据 ,这些 文 
本 数据 既 没 有 被 设 定 特 征 ,也 没有 数字 化 的 量度 。 因 此 ,在 交 给 朴素 贝 叶 斯 分 类 需 学 习 之 
前 ,要 对 数据 做 进一步 的 处 理 。 不 过 在 此 之 前 ,我们 仍然 需要 如 代码 22 所 示 ,对 数据 进行 
分 割 并 且 随 机 采样 出 一 部 分 用 于 测试 。 


| 代码 22: 20 类 新 闻 文本 数据 分 割 


>>># 从 skleam.cross validation A train test split, 
>>> fram skleam.cross validation import train test split 
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>>># 随 机 采样 25% 的 数据 样本 作为 测试 集 。 : 
>>>X train, X test, y train, y test-train test split (news.data, news.target, test size- 0.25, 


randum state- 33) | 


° 编程 实践 : 这 部 分 的 工作 首先 将 文本 转化 为 特征 回 量 ,然后 利用 朴素 贝 叶 斯 模型 
从 训练 数据 中 估计 参数 ,最 后 利用 这 些 概率 参数 对 同样 转化 为 特征 向 量 的 测试 新 
闻 样 本 进行 类 别 预 测 ,如 代码 23 所 示 。 


| 代码 23: 使 用 朴素 贝 叶 斯 分 类 器 对 新 闻 文 本 数据 进行 类 别 预 测 


>>># 从 skleam.feature extraction.text 里 导入 用 于 文本 特征 向 量 转化 模块 。 详 细 介 绍 请 读者 参 
25"3.1.1.1 特征 抽取 ” 节 。 | 
>>> frm skleam.feature extraction.text import CountVectorizer 

>>> vec- CountVectorizer () 

>>> X train-vec.fit transformm(X train) 

>>> X_test= vec.transformm(X test) 


>>># 从 skleam.naive bayes 里 导 和 人 朴素 贝 叶 斯 模型 。 

>>> fram sklearn.naive bayes import MultinamialNB 

>>> # 从 使 用 默认 配置 初始 化 朴素 贝 叶 斯 模型 。 

»»»mnb-MiltinamialNB () 

>>># 利 用 训练 数据 对 模型 参数 进行 估计 。 

>>>imb.fit (X train, y train) 

>>># 对 测试 样本 进行 类 别 预测 ,结果 存储 在 变量 y predict 中 。 
>>> y predict-mnb.predict (X test) - | 


。 性 能 测评 : 与 “2. 1. 1. 1 线性 分 类 器 ” 节 的 评价 指标 一 样 ,我 们 使 用 准确 性 、 召 回 
率 、 精 确 率 和 F1l 指标 ,这 4 个 测度 对 朴素 贝 叶 斯 模型 在 20 类 新 闻 文本 分 类 任务 
上 的 性 能 进行 评估 ,详细 代码 如 下 所 示 。 


| 代码 24; 对 朴素 贝 叶 斯 分 类 器 在 新 闻 文本 数据 上 的 表现 性 能 进行 评估 


>>>#M sklearn.metrics 里 导入 classification report 用 于 详细 的 分 类 性 能 报告 。 
>>> fram skleam.metrics import classification report 

>>> print "The accuracy of Naive Bayes Classifier is', mnb.score(X test, y test) 

>>> print classification report(y test, y predict, target names- news.target names) 
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Support 

alt.atheism 0.86 0.86 0.86 201 

cam.grarhics 0.59 0.86 0.70 250 

Camp.os .ms— windows.misc 0.89 0.10 0.17 248 

camp. sys. ibm.pc. hardware 0.60 0.88 0.72 240 

Camp. sys.mac. hardware 0.93 0.78 0.85 242 

camp.windows.x 0.82 0.84 0.83 263 

misc. forsale 0.91 0.70 0.79 257 

rec.autos 0.89 0.89 0.89 238 

rec.motorcycles 0.98 0.92 0.95 276 

rec.sport.baseball 0.98 0.91 0.95 251 

rec.sport.hockey 0.93 0.99 0.96 233 

sci .crypt 0.86 0.98 0.91 238 

sci .electronics 0.85 0.88 0.86 249 

sci med 0.92 0.94 0.93 245 

Sci.space 0.89 0.96 0.92 221 

soc. religion.christian 0.78 0.96 0.86 232 

talk.politics.guns 0.88 0.% 0.92 251 

talk.politics.mideast 0.90 0.98 0.94 231 
talk.politics.misc 0.79 0.89 0.84 188 : 
talk.religicn.misc 0.93 0.44 0.60 158 7 
avg / total 0.86 0.84 0.82 4712 _ 


通过 代码 24 的 输出 ,我 们 获知 朴素 贝 叶 斯 分 类 器 对 4712 条 新 闻 文 本 测试 样本 分 类 
的 准确 性 约 为 83. 977% ,平均 精确 率 、 召 回 率 以 及 F1 指标 分 别 为 0.86、0.84 和 0.82. 
° 特点 分 析 : 朴素 贝 叶 斯 模型 被 广泛 应 用 于 海量 互联 网 文本 分 类 任务 。 由 于 其 较 
强 的 特征 条 件 独立 假设 ,使 得 模型 预测 所 需要 估计 的 参数 规模 从 过 指 数量 级 向 线 
性 量 级 减少 , 极 大 地 节约 了 内 存 消 耗 和 计算 时 间 。 但 是 ,也 正 是 受 这 种 强 假设 的 
限制 ,模型 训练 时 无 法 将 各 个 特征 之 间 的 联系 考量 在 内 ,使 得 该 模型 在 其 他 数据 
特征 关联 性 较 强 的 分 类 任务 上 的 性 能 表现 不 佳 。 


2.1.1.4 K 近邻 (分 类 ) 
° 模型 介绍 : K 近邻 模型 本 身 非常 直观 并 日 容易 理解 。 算 法 描述 起 来 也 很 简单 ,如 
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图 2-6 所 示 。 假设 我 们 有 一 些 携带 分 类 标记 的 训练 样本 ,分 布 于 特征 空间 中 ; 蓝 
色 .绿色 的 样本 点 各 自 代 表 其 类 别 。 对 于 一 个 待 分 类 的 红色 测试 样本 点 ,未 知 其 
类 别 ,按照 成 语 “ 近 朱 者 赤 , 近 墨 者 黑 ” 的 说 法 ,我们 需要 寻找 与 这 个 待 分 类 的 样本 
在 特征 空间 中 距离 最 近 的 K 个 已 标记 样本 作为 参考 ,来 帮助 我 们 做 出 分 类 决策 。 
这 便 是 K 近邻 算法 的 通俗 解释 。 而 在 图 2-6 中 ,如 果 我 们 根据 最 近 的 K = 3% 
带 有 标记 的 训练 样本 做 分 类 决策 ,那么 待 测试 的 样本 应 该 属于 绿色 类 别 , 因 为 在 
3 个 最 近邻 的 已 标记 样本 中 ,绿色 类 别 样本 的 比例 最 高 ;如 果 我 们 扩大 搜索 范围 ， 
iE K = 7, 那 么 分 类 器 则 倾向 待 测 样本 属于 蓝 色 。 因 此 我 们 也 可 以 发 现 , 随 着 
K 的 不 同 ,我 们 会 获得 不 同 效果 的 分 类 器 和 。 
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图 2-6 K 近邻 算法 展示 样 例 ( 见 彩 图 ) 
数据 描述 : 在 这 一 广 , 我 们 回 谈 者 朋友 展示 如 何 利 用 K 近邻 算法 对 生物 物种 进行 
分 类 ,并 且 使 用 最 为 著名 的 “高 尾 ”(Iris) 数 据 集 。 该 数据 集 曾 经 被 Fisher 用 在 其 


经 典 论 文中 ,目前 作为 教科 书 般 的 数据 样本 预存 在 Scikit-learn 的 工具 包 中 。 
下 面 的 代码 25 将 指导 各 位 如 何 读 取 该 数据 。 


代码 25. HM Iris 数据 集 细 节 资 料 


>>># 从 sklearn.datasets FA iris 数 据 加 载 器 。 
>>> fram skleam.datasets import load iris 


D 拓展 小 贴 士 16: 这 里 是 想 向 读者 暗示 一 件 事情 : K 不 属于 模型 通过 训练 数据 学 习 的 参数 ,因此 要 在 模型 初始 化 过 程 中 提前 确定 ; 
但 是 K 值 的 不 同 又 会 对 模型 的 表现 性 能 有 巨大 影响 ,所 以 需要 我 们 给 予 更 多 关注 。 这 些 笔 者 都 会 在 第 3 章 中 深入 讨论 。 


>>># 使 用 加 载 器 读 取 数 据 并 且 存 人 变量 iris, 


>>> iris= load iris() 


>>># 查 验 数 据 规模 。 
>>> iris .data.shape 


(150L, 4L) 


>>># 查 看 数据 说 明 。 对 于 一 名 机 器 学 习 的 实践 者 来 讲 , 这 是 一 个 好 习惯 。 


>>> print iris.DESCR 
Iris Plants Database 
Notes 


Data Set Characteristics: 


:Nuniber of Instances: 150 (50 in each of three classes) 
‘Number of Attributes: 4 numeric, predictive attributes and the class 


Attribute Infomation: 
- sepal length in an 
- sepal width in am 
-petal length in m 
-petal width in m 


- class: 


- Iris- Setosa 


- Iris- Versicolour 
- Iris- Virginica 


:Summary Statistics: 


Min Max Mean SD Class Correlation 


sepal length: 4.3 
sepal width: 2.0 
petal length: 1.0 
petal width: 0.1 


7.9 
£.4 
6.9 
2.5 


5.84 
3.05 
3.76 
1.20 


0.83 
0.43 
1.76 
0.76 


0.7826 
- 0.4194 

0.9490 (high!) 
0.9565 (high!) 


:Missing Attribute Values: None 
:Class Distribution: 33.3% for each of 3 classes. 
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:Creator: R.A. Fisher 
:Donor: Michael Marshall (MARSHALLA PLUG io.arc.nasa.gov) 


:Date: July, 1988 | 


通过 上 述 代码 对 数据 的 查验 以 及 数据 本 身 的 描述 ,我 们 了 解 到 Iris 数据 集 共 有 150 
打药 尾数 据 样本 ,并 且 均 匀 分 布 在 3 个 不 同 的 亚 种 ;每 个 数据 样本 被 4 4 AS ITE 438.4 
昔 的 形状 特征 所 描述 。 由 于 没有 指定 的 测试 集 , 因 此 按照 惯例 ,我们 需要 对 数据 进行 随机 
分 割 ,25% 的 样本 用 于 测试 ,其 余 75% 的 样本 用 于 模型 的 训练 。 

这 里 我 们 需要 额外 强调 的 是 ,如 果 读 者 朋友 自行 编写 数据 分 割 的 程序 ,请 务必 要 保证 
随机 采样 。 尽 管 许多 数据 集中 样本 的 排列 顺序 相对 随机 ,但 是 也 有 例外 。 本 例 Iris 数据 
集 便 是 按照 类 别 依次 排列 。 如 果 只 是 采样 前 25% 的 数据 用 于 测试 ,那么 所 有 的 测试 样本 
都 属于 一 个 类 别 , 同 时 训练 样本 也 是 不 均衡 的 (Unbalanced), 这 样 得 到 的 结果 存在 偏 管 
(Bias) ,并 且 可 信和 度 非常 低 。Scikit-learn 所 提供 的 数据 分 割 模块 ,如 代码 26 所 示 默 认 了 
随机 采样 的 功能 ,因此 大 家 不 必 担 心 。 


| 代码 26: 对 Iris 数据 集 进行 分 割 


>>># M skleam. ; validation 里 选择 导入 train test split 用 于 数据 分 割 。 

>>> from sklearn.cross validation import train test split 

>>># 从 使 用 train test split, 利 用 随机 种 子 randam state 采 样 25% 的 数据 作为 测试 集 。 3 
>>>X train, X test, y train, y test- train test split(iris.data, iris.target, test size- 0.25, : 
random state- 33) 


° 编程 实践 : 接 下 来 ,我 们 在 代码 27 中 ,使 用 Scikit-learn PAY K yr 4B 2r 2$ $28 RT NI 
试 样本 进行 分 类 预测 : 


| 代码 27: 使 用 K 近邻 分 类 器 对 营 尾 花 (Iris) 数 据 进 行 类 别 预测 

| »»» #)Á skleam.preprocessing 里 选择 导 人 数据 标准 化 模块 。 
>>> frm sklearn.preprocessing import StandardScaler 
>>> #M skleam.neighbors 里 选择 导入 KNeighborsClassifier, B] 和 近邻 分 类 器 。 
>>> from skleam.neighbors import KNeighborsClassifier 


>>># 对 训练 和 测试 的 特征 数据 进行 标准 化 。 
>>> ss= Standardscaler () 
>>>X train-ss.fit transform(X train) 
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>>> X test= ss.transform(X test) 


>>> HEH K 近 邻 分 类 器 对 测试 数据 进行 类 别 预 测 ,预测 结果 储存 在 变量 y predict rh. 


>>> knc= KNeighborsClassifier () 
>>> knc.fit X train, y train) : 
>>> y predict- knc.predict (X test) | 


° 性 能 测评 : 与 “2. 1.1.1 线性 分 类 器 ” 节 中 的 评价 指标 一 样 ,使 用 准确 性 、 召 回 率 、 
精确 率 和 下 1 指标 ,4 个 测度 对 K 近邻 分 类 模型 在 经 典 营 尾 花 品种 预测 任务 上 进 
行 性 能 评估 , 详 见 代码 28. 


| 代码 28: 对 K 近邻 分 类 器 在 营 尾 花 (Iris) 数 据 上 的 预测 性 能 进行 评估 


>>> # 使 用 模型 自 带 的 评估 函数 进行 准确 性 测评 。 
>>> print "Ihe accuracy of K Nearest Neighbor Classifier is', knc.score(X test, y test) 


The accuracy of K- Nearest Neighbor Classifier is 0.894736842105 


>>># 依 然 使 用 skleam.metrics 里 面 的 classification report 模 块 对 预测 结果 做 更 加 详细 的 分 析 。 
>>> fram skleam.metrics import classification report 
>>> print classification report(y test, y predict, target names- iris.target names) 

precision recall fl- score support 


setosa 1.00 1.00 1.00 8 
versicolor 0.73 1.00 0.85 11 
virginica 1.00 0.79 0.88 19 
avg / total 0.92 0.89 0.90 38 


代码 28 的 输出 说 明 , K 近邻 分 类 器 对 38 2 35 EE dE DIUI E ÀK AK WE tf FE 2 >J 

89. 474% ,平均 精确 率 、 召 回 率 以 及 F1 d by 2r 3 0.92.0. 89 A 0. 90, 
。 特点 分 析 : K UWB AB) AEH EDULI Blas REN AR AE] XUI en m 
爱 。 许 多 教科 书 篆 第 以 此 模型 为 例 抛 砖 引 玉 , 便 足 以 看 出 其 不 仅 特别 ,而 且 尚 有 
IK ZA. Hb HU A ARX IK 近邻 算法 与 其 他 模型 最 大 的 不 同 在 于 : 该 模型 
没有 参数 训练 过 程 。 也 就 是 说 ,我 们 并 没有 通过 任何 学 习 算 法 分 析 训 练 数 据 , 而 
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只 是 根据 测试 样本 在 训练 数据 的 分 布 直接 做 出 分 类 决策 。 因 此 ,K 近邻 属于 无 参 
数 模型 (Nonparametric model) 中 非常 简单 一 种 。 然 而 , 正 是 这 样 的 决策 算法 , 导 
致 了 其 非常 高 的 计算 复杂 度 和 内 存 消 耗 。 因 为 该 模型 每 处 理 一 个 测试 样本 ,都 需 
要 对 所 有 预先 加 载 在 内 存 的 训练 样本 进行 遍历 、 逐 一 计算 相似 度 、 排 序 并 且 选 取 
K 个 最 近邻 训练 样本 的 标记 ,进而 做 出 分 类 决策 。 这 是 平方 级 别 的 算法 复杂 度 ， 
一 旦 数据 规模 稍 大 ,使 用 者 便 需 要 权衡 更 多 计算 时 间 的 代价 2。 


2.1.1.5 决策 树 


° 模型 介绍 : 在 前 面 所 使 用 的 迪 辑 斯 带 回归 和 支持 癌 量 机 模型 ,都 在 某 种 程度 上 要 
求 被 学 习 的 数据 特征 和 目标 之 间 遵 照 线性 假设 。 然 而 ,在 许多 现实 场景 下 ,这 种 
假设 是 不 存在 的 。 
比如 ,如果 要 人 由 一 个 人 的 年 龄 来 预测 患 流 感 的 死亡 率 。 如 果 采 用 线性 模型 假设 ,那么 
只 有 两 种 情况 : 年 龄 越 大 死亡 率 越 高 ;或 者 年 龄 越 小 死亡 率 越 高 。 然 而 ,根据 常识 判断 , 青 
壮年 因为 更 加 健全 的 免疫 系统 , 相 较 于 儿童 和 老年 人 不 容易 因 患 流感 死亡 。 因 此 ,年龄 与 因 
流感 而 死亡 之 间 不 存在 线性 关系 。 如 果 要 用 数学 表达 式 描述 这 种 非 线性 关系 ,使 用 分 段 
靖 数 最 为 合理 ;而 在 机 帮 学 习 模 型 中 ,决策 树 就 是 描述 这 种 非 线 性 关系 的 不 二 之 选 。 
再 比如 ,信用 卡 申 请 的 审核 涉及 申请 人 的 多 项 特征 ,也 是 典型 的 决策 树 模型 。 正 如 
2-7 所 示 : 决策 树 节 点 (node) 代 表 数 据 特 征 , 如 年 龄 (age)、 和 映 份 是 否 是 学 生 (student)、 
信用 评级 (credict_rating) 等 ;每 个 节点 下 的 分 支 代 表 对 应 特征 值 的 分 类 ,如 年 龄 包括 年 轻 
人 (youth) ,中 年 人 (middle aged) 以 及 老年 人 (senior) ,身份 区 分 是 否 是 学 生 , 等 等 ;而 决 
策 树 的 所 有 叶子 节点 (leaf) 则 显示 模型 的 决策 结果 。 对 于 是 否 通 过 信用 卡 申 请 而 言 ,这 
是 二 分 类 决策 任务 ,因此 只 有 yes 和 no 两 种 分 类 结果 。 
如 图 2-7 所 示 , 这 类 使 用 多 种 不 同 特 征 组 合 搭建 多 层 决 策 树 的 情况 ,模型 在 学 习 的 时 
修 就 需要 考虑 特征 节点 的 选取 顺序 。 常 用 的 度量 方式 包括 信息 炉 (Information Gain) 和 
基尼 不 纯 性 (Gini Impurity)2。 本 书 将 不 做 过 多 引申 ,有 兴趣 的 读者 可 以 参阅 参考 文献 [8] 
的 第 5 章 。 
。 数据 描述 : 虽然 很 难 获 取 到 信用 卡 公 司 客 户 的 资料 ,但 是 也 有 类 似 借 助 客户 档案 
进行 二 分 类 的 任务 。 本 节 要 使 用 的 数据 来 自 于 历史 上 一 件 家 喻 户 晓 的 灾难 性 事 


D 拓展 小 贴 士 17; 对 K 近邻 有 深入 了 解 的 读者 一 定 会 反 驶 这 个 观点 ,因为 有 类 似 KD-Tree 这 样 的 数据 结构 , 透 过 “空间 换取 时 间 ” 
的 思想 ,节省 决策 时 间 。 考 虑 到 本 书 的 受众 ,作者 只 在 这 里 提 及 ,有 兴趣 的 读者 可 以 自行 深入 研究 和 探讨 。 

© 拓展 小 贴 士 18: 阅读 Scikit-learn 中 决策 树 模 型 的 文档 http;//scikit-learn. org/stable/modules/generated/sklearn. tree. 
DecisionTreeClassifier, html # sklearn. tree. DecisionTreeClassifier 可 以 知道 ,默认 配置 的 决策 树 模型 使 用 的 是 基尼 不 纯 性 (Gini impurity) 
作为 排序 特征 的 度量 指标 。 
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图 2-7 信用卡 申请 自动 审核 任务 的 决策 树 模型 


fF: 泰坦 尼克 号 沉船 事故 。1912 年 ,当时 隶属 于 英国 的 世界 级 豪华 客轮 泰坦 尼克 
号 , 因 在 处 女 航行 中 不 幸 撞 上 北大 西洋 冰山 而 沉没 。 这 场 事 故 使 得 1500 多 名 乘 
客 恰 难 。 后 来 ,这 场 震 惊 世 界 的 惨剧 被 详细 地 调查 ,而 有 旦 遇难 乘客 的 信息 也 逐渐 
被 披露 。 在 当时 的 救援 条 件 下 ,无 法 在 短 时 间 内 确认 每 位 乘客 生还 的 可 能 性 。 而 
^ ,许多 科学 家 试图 通过 计算 机 模拟 和 分 析 找 出 湾 藏 在 数据 背后 的 生还 逻辑 。 下 
面 ,通过 代码 29 ,尝试 揭 开 这 人 尘封 了 100 多 年 的 数据 的 面纱 。 


| 代码 29. 泰坦 尼克 号 乘客 数据 查验 


>>> SEA. pnis 用 于 数据 分 析 。 

>>> import pandas as pd 

>>># 利 用 pandas 的 read csv 模 块 直接 从 互联 网 收集 泰坦 尼克 号 乘客 数据 。 

>>> titanic=pd.read_csv("http://biostat .mc. vanderbilt .edu/wi ki /pub/Main/DataSets/titanic.txt') 
>>># 观 察 前 几 行 数据 ,可 以 发 现 ,数据 种 类 各 异 BY KG YE BRAK BE. 

>>> titanic.head () 


Iu — a - 


一 一 一 Allen, Miss Elisabeth Walton 29.0000 St Louis, MO 


0 Alison, Miss Helen Lorine Miss Helen Loraine 


i Montreal, PQ / 
B Allison, Mr Hudson Joshua Creighton | 30.0000 | Southampton Chesterville, ON 
: Allison, Mrs Hudson J.C. (Bessie Montreal, PQ / 
= Waldo Daniels) 25.0000) Southampton | Ci eoterville, ON 


Mont PQ/ 
Allison, Master Hudson Trevor 0.9167 | Southampton oT °> 
Chesterville, ON 
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>>> # (FA pandas, HE ABH A pandas 独 有 的 dataframe 格式 (二 维 数据 表格 ) ,直接 使 用 info ()， i 
看 数据 的 统计 特性 。 
>>> titanic.info() 

«class 'pandas.core.frame.DataFrame' 

Inté4Index: 1313 entries, 0 to 1312 

Data colums (total 11 colums): 

row.names 1313 non- null int64 

pclass 1313 non- null d5ject 

survived 1313 noan- null int64 

name 1313 non- null d5ject 

age 633 non- null float64 

erbarked 821 non- null dbject 

hame.dest 754 non- null dbject 


roam 77 nor- null ject 
ticket 69 non- null cbject 
boat 347 non- null dbject 
Sex 1313 non- null cbject 
dtypes: floaté4(1), int64(2), cbject (8) | 
memory usage: 123.1* KB o] 


代码 29 的 一 系列 输出 说 明 : 该 数据 共有 1313 条 乘客 信息 ,并 且 有 些 特 征 数据 是 完 
整 的 (如 pclass.name), ,有些 则 是 缺失 的 ;有 些 是 数值 类 型 的 ,有 些 则 是 字符 串 。 
。 编程 实践 : 比 起 之 前 使 用 过 的 数据 样 例 , 这 次 的 数据 年 代 更 加 久远 ,难免 会 有 信 
息 丢 失 和 不 完整 ;甚至 ,许多 数据 特征 还 没有 量化 。 因 此 ,在 使 用 决策 树 模型 进行 
训练 学 习 之 前 ,需要 对 数据 做 一 些 预 处 理 和 分 析 工 作 , 如 代码 30 所 示 。 


| 代码 30: 使 用 决策 树 模 型 预测 泰坦 尼克 号 乘客 的 生还 情况 


>>># 机 器 学 习 有 一 个 不 太 被 初学 者 重视 并 且 耗 时 ,但 是 十 分 重要 的 一 一 环 一 一 特征 的 选择 ,这 个 
需要 基于 一 些 背 景 知识 。 根 据 我 们 对 这 场 事故 的 了 解 , sex, age, pclass 这 些 特征 都 很 有 可 能 是 决 3 
定 幸 免 与 否 的 关键 因素 。 
>>>X=titanic[['pclass', 'age', 'sex']] 

>>> y-titanic['survived'] 


>>># 对 当前 选择 的 特征 进行 探查 。 
»»»X.info() 


sex 1313 non- null cbject 
dtypes: float64(1) , doject (2) 
memory usage: 41.0+ KB 


>>># 借 由 上 面 的 输出 ,我 们 设计 如 下 几 个 数据 处 理 的 任务 : 
>>> # 1) age 这 个 数据 列 , 只 有 633 个 ,需要 补 完 。 
>>>#2) sex 5 pclass 两 个 数据 列 的 值 都 是 类 别 型 的 ,需要 转化 为 数值 特征 ,用 01 IRE 


>>># 首 先 我 们 补充 age 里 的 数据 ,使 用 平均 数 或 者 中 位 数 都 是 对 模型 偏离 造成 最 小 影响 的 策略 。 : 
»»»X['age'].fillna(X['age'].mean(), inplace- True) : 


>>># 对 补 完 的 数据 重新 探查 。 

>>> X.info() 

< class 'pandas.core.frame.DataFrame' 
Inté4Index: 1313 entries, 0 to 1312 
Data colums (total 3 colums): 

pclass 1313 non- null abject 


age 1313 noan- null floate4 
sex 1313 non- null ject 
dtypes: float64 (1), cbject (2) 


memory usage: 41.0+ KB 
>>> # Hi Jk 48% A , age FFE TS Bl Y T SE. 


>>># 数 据 分 割 。 
>>> fram skleam.cross validation import train test split 
22» X train, X test, y train, y test- train test split(X, y, test size- 0.25, randum state- 33) 


>>> 4 fii FH scikit- learn.feature extraction 中 的 特征 转换 器 , 详 见 3.1.1.1 特 征 抽取 。 
>>> fram skleam.feature extraction import DictVectorizer 


[e : Piham 机 器 学 习 及 实践 


| 代码 31: 决策 树 模 型 对 泰坦 尼克 号 乘客 是 否 生还 的 预测 性 能 


>>> vec= DictVectorizer (sparse- False) 


>>># 转 换 特征 后 ,我 们 发 现 凡是 类 别 型 的 特征 都 单独 剥离 出 来 , 独 成 一 列 特 征 ,数值 型 的 则 保持 
不 变 。 | 
>>>X train-vec.fit transfom(X train.to dict (orient- 'record')) 

>>> print vec.feature names _ 

['age', 'pclass= 1st', 'pclass-2nd', 'pclass- 3rd', 'sex- female', 'sex-male'] 


>>># 同 样 需要 对 测试 数据 的 特征 进行 转换 。 
>>>X test=vec.transform(X test.to dict (orient- 'record')) 


>>># 从 skleam.tree 中 导 人 决策 树 分 类 器 。 

>>> from sklearn.tree import DecisionTreeClassifier 

>>># 使 用 默认 配置 初始 化 决策 树 分 类 器 。 

>>> dtc= DecisionTreeClassifier() 

>>># 使 用 分 割 到 的 训练 数据 进行 模型 学 习 。 

»»»dtc.fit(X train, y train) 
>>># 用 训练 好 的 决策 树 模型 对 测试 特征 数据 进行 预测 。 i 
>>> y predict- dtc.predict X test) | 


。 性 能 测评 : 使 用 同样 用 于 分 类 任务 的 多 种 性 能 测评 指标 ,通过 代码 31 对 乘客 是 否 
生还 的 预测 结果 进行 评价 。 


>>> JÁ sklearn.metrics $A classification report, 
>>> fram sklearn.metrics import classification report 


>>># 输 出 预测 准确 性 。 : 
>>> print dtc.score(X test, y test) | 
>>>+# 输 出 更 加 详细 的 分 类 性 能 。 | 
>>> print classification report (y predict, y test, target names- ['died', | 
'survived']) | 
0.781155015198 : 
precision real] fil- support : 

died 0.91 0.78 0.84 236 | 

survived 0.58 0.80 0.67 93 : 

avg / total 0.81 0.78 0.79 329 _ 
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代码 31 的 输出 表明 : 决策 树 模型 总 体 在 测试 集 上 的 预测 准确 性 约 为 78.12%。 详 细 
的 性 能 指标 进一步 说 明 ,该 模型 在 预测 遇难 者 方面 性 能 较 好 ; 却 需要 在 识别 生还 者 的 精确 
率 方面 下 功夫 。 
° 特点 分 析 : 相 比 于 其 他 学 习 模 型 ,决策 树 在 模型 描述 上 有 着 巨大 的 优势 。 决 策 树 
的 推 产 光 辑 非常 直观 ,具有 清晰 的 可 解释 性 ,也 方便 了 模型 的 可 视 化 。 这 些 特性 
同时 也 保证 在 使 用 决策 树 模型 时 ,是 无 须 考 虑 对 数据 的 量化 甚至 标准 化 的 。 并 
且 ,与 前 一 节 天 近邻 模型 不 同 ,决策 树 仍 然 属 于 有 参数 模型 ,需要 花费 更 多 的 时 
间 在 训练 数据 上 。 


2.1.1.6 集成 模型 (分 类 ) 


。 模型 介绍 : 常言 道 :“ 一 个 篱 矢 三 个 桩 ,一 个 好 汉 三 个 帮 ”。 集 成 (Ensemble) 分 类 
模型 便 是 综合 考量 多 个 分 类 器 的 预测 结果 ,从 而 做 出 决策 。 只 是 这 种 “综合 考量 ” 
的 方式 大 体 上 分 为 两 种 : 
一 种 是 利用 相同 的 训练 数据 同时 搭建 多 个 独立 的 分 类 模型 ,然后 通过 投票 的 方式 ,以 
少数 服从 多 数 的 原则 作出 最 终 的 分 类 决策 。 比 较 具 有 代表 性 的 模型 为 随机 和 森林 分 类 笑 
(Random Forest Classifier) , 即 在 相同 训练 数据 上 同时 搭建 多 棵 决策 树 (Decision Tree), 
然而 ,在 2.1.1. 5 决策 树 一 节 提 到 过 ,一 株 标准 的 决策 树 会 根据 每 维特 征 对 预测 结果 的 影 
啊 程 度 进行 排序 ,进而 决定 不 同 特 征 从 上 至 下 构建 分 裂 节 点 的 顺序 ;如 此 一 来 ,所 有 在 随 
机 森林 中 的 决策 树 都 会 受 这 一 策略 影响 而 构建 得 完全 一 致 ,从 而 丧失 了 多 样 性 。 因 此 , 随 
机 和 森林 分 类 需 在 构建 的 过 程 中 ,每 一 棵 决策 树 都 会 放弃 这 一 固定 的 排序 算法 , 转 而 随机 选 
取 特 征 。 
另 一 种 则 是 按照 一 定 次 序 搭建 多 个 分 类 模型 。 这 些 模型 之 间 彼 此 存在 依赖 关系 。 一 
ET S ,每 一 个 后 续 模 型 的 加 入 都 需要 对 现 有 集成 模型 的 综合 性 能 有 所 贡献 ,进而 不 断 提 
升 更 新 过 后 的 集成 模型 的 性 能 ,并 最 终 期 望 借 助 整合 多 个 分 类 能 力 较 弱 的 分 类 器 ,搭建 出 
具有 更 强 分 类 能 力 的 模型 。 比 较 具 有 代表 性 的 当 属 梯度 提升 决策 树 (Gradient Tree 
Boosting) 。 与 构建 随机 森林 分 来 器 模型 不 同 , 这 里 每 一 棵 决策 树 在 生成 的 过 程 中 都 会 尽 
可 能 降低 整体 集成 模型 在 训练 集 上 的 拟 合 误差 。 
。 数据 描述 : 为 了 对 比 单一 决策 树 (Decision Tree) 与 集成 模型 中 随机 森林 分 类 器 
(Random Forest Classifier) 以 及 梯度 提升 决策 树 (Gradient Tree Boosting) 的 性 
能 差异 ,下 面 依旧 使 用 泰坦 尼克 号 的 乘客 数据 。 

° 编程 实践 : 在 代码 32 中 ,使 用 相同 的 训练 数据 与 测试 数据 ,并 利用 单一 决策 树 、 随 
机 森林 分 类 以 及 梯度 上 升 决 策 树 ,3 种 模型 各 自 的 默认 配置 进行 初始 化 ,从 事 预 
测 活 动 。 


61 : 
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| 代码 32. 集成 模型 对 泰坦 尼克 号 乘客 是 否 生 还 的 预测 


>>># 导 人 pandas, 并 且 重 命名 为 pa, 
>>> import pandas as pd 


>>>+# 通 过 互联 网 读 取 泰 坦 尼 克 乘 客 档案 ,并 存储 在 变量 titanic 中 。 
>>>titanic= pd.read csv ('http://biostat.mc.vanderbi lt .edu/wiki /pub/Main/DataSets/titanic.txt!) 


>>># 人 工 选 取 pclass, age 以 及 sex 作 为 判别 乘客 是 否 能 够 生还 的 特征 。 
»»»X-titanic[['pclass', 'age', 'sex']] 
>>> y-titanic['survived'] 


>>># 对 于 缺失 的 年 龄 信息 ,我们 使 用 全 体 乘客 的 平均 年 龄 代替 ,这 样 可 以 在 保证 顺利 训练 模型 
的 同时 , 尽 可 能 不 影响 预测 任务 。 : 
»»»X['age'].fillna(X['age'].mean(), inplace- True) 


>>># 对 原始 数据 进行 分 割 ,25% 的 乘客 数据 用 于 测试 。 
>>> fram skleam.cross validation import train test split 
>>>X train, X test, y train, y test=train test split, y, test size- 0.25, random state 33) 


>>># 对 类 别 型 特征 进行 转化 ,成 为 特征 向 量 。 

>>> fram sklearn.feature extraction import DictVectorizer 

>>> vec= DictVectorizer (sparse- False) 

>>>X train-vec.fit transfom(X train.to dict (orient- 'record')) 
>>> X_test= vec.transform(% test.to dict (orient- 'record')) 


>>># 使 用 单一 决策 树 进 行 模型 训练 以 及 预测 分 析 。 
>>> from skleam.træ import DecisionTreeClassifier 
>>> dtc- DecisionTreeClassifier () 

»»»dtc.fit(X train, y train) 

>>> dtc y pred-dtc.predict(X test) 


>>># 使 用 随机 森林 分 类 器 进行 集成 模型 的 训练 以 及 预测 分 析 。 
>>> from sk1learn.enserble import RandamEorestClassifier 
>>> rfc- RandamForestClassifier () 


>>> rfc.fit (X train, y train) 
>>> rfc y pred- rfc.predict (X test) 


>>># 使 用 梯度 提升 决策 树 进行 集成 模型 的 训练 以 及 预测 分 析 。 

>>> fram sklearn.ensemble import GradientBoostingClassifier 

>>> gbc- GradientBoostingClassifier () 

>>> goc.fit X train, y train) 
»»»gboc y pred goc.predict (X test) | 


° 性 能 测评 : 代码 33 使 用 多 种 用 于 评价 分 类 任务 性 能 的 指标 ,在 测试 数据 集 上 对 比 
单一 决策 树 (Decision Tree) .随机 森林 分 类 器 (Random Forest Classifier) 以 及 梯 
度 提 升 决 策 树 (Gradient Tree Boosting) 的 性 能 差异 。 


| 代码 33. 集成 模型 对 泰坦 尼克 号 乘客 是 否 生 还 的 预测 性 能 


>>>#M sklearn.metrics # À. classification report, 
>>> fram sklearn.metrics import classification report 


>>># 输 出 单一 决策 树 在 测试 集 上 的 分 类 准确 性 ,以 及 更 加 详细 的 精确 率 、 召 回 率 、 了 可 指标 。 
>>> print "The accuracy of decision tree is', dtc.score X test, y test) 
>>> print classification report (dtc y pred, y test) 


>>># 输 出 随机 森林 分 类 器 在 测试 集 上 的 分 类 准确 性 ,以 及 更 加 详细 的 精确 率 、 召 回 率 、 了 可 指标 。 
>>> print. "The accuracy of random forest classifier is', rfc.score X test, y test) 
>>> print classification report (rfc y pred, y test) 


>>>+# 输 出 梯度 提升 决策 树 在 测试 集 上 的 分 类 准确 性 ,以 及 更 加 详细 的 精确 率 、 召 回 率 .可 指 标 。 
>>> print "The accuracy of gradient tree boosting is', goc.score(X test, y test) 
>>> print classification report(goc y pred, y test) 


The accuracy of decision tree is 0.781155015198 


precision recall fl- score support 

0 0.91 0.78 0.84 236 
1 0.58 0.80 0.67 93 
329 


avg / total 0.81 0.78 0.79 


: 64 : Pyhom 机 器 学 习 及 实践 


The accuracy of random forest classifier is 0.784194528875 
precision recall fl- score support 
239 
90 
329 


0 0.92 0.77 0.84 
1 0.57 0.81 0.67 


avg / total 0.82 0.78 0.79 


The accuracy of gradient tree boosting is 0.790273556231 
precision recall fl- score support 
239 
90 
329 


0 0.92 0.78 0.84 
1 0.58 0.82 0.68 


avg / total 0.83 0.79 0.80 


代码 33 的 输出 表明 : 在 相同 的 训练 和 测试 数据 条 件 下 ,仅仅 使 用 模型 的 默认 配置 ， 
梯度 上 升 决策 树 具 有 最 佳 的 预测 性 能 ,其 次 是 随机 和 森林 分 类 需 , 最 后 是 单一 决策 树 。 大 量 
在 其 他 数据 上 的 模型 实践 也 证 明了 上 述 结论 的 普 适 性 。 一 般 而 言 , 工 业界 为 了 追求 更 加 
强劲 的 预测 性 能 ,经 常 使 用 随机 森林 分 类 模型 作为 基线 系统 (Baseline System) 9, 
° 特点 分 析 : 集成 模型 可 以 说 是 实战 应 用 中 最 为 常见 的 。 相 比 于 其 他 单一 的 学 习 
模型 ,集成 模型 可 以 整合 多 种 模型 ,或 者 多 次 就 一 种 类 型 的 模型 进行 建 模 。 由 于 
模型 估计 参数 的 过 程 也 同样 受到 概率 的 影响 ,具有 一 定 的 不 确定 性 ;因此 ,集成 模 
型 虽然 在 训练 过 程 中 要 耗费 更 多 的 时 间 , 但 是 得 到 的 综合 模型 往往 具有 更 高 的 表 
现 性 能 和 更 好 的 稳定 性 。 


2.1.2 回归 预测 


回归 问题 和 分 类 问题 的 区 别 在 于 : 其 待 预测 的 目标 是 连续 变量 ,比如 : 价格 .降水 量 
等 等 。 与 “2.1.1 分 类 学 习 ” 节 的 介绍 方式 不 同 ,这 里 不 会 对 回归 问题 的 应 用 场景 进行 横 
癌 扩 展 ;而 是 只 针对 一 个 “美国 波士顿 地 区 房价 预测 ”的 经 典 回归 问题 进行 分 析 , 好 让 读者 
朋友 对 各 种 回归 模型 的 性 能 与 优 缺 点 有 一 个 深入 的 比较 。 


Q 拓展 小 贴 士 19: 读者 朋友 将 会 在 本 书 经 常见 到 基线 系统 的 说 法 ,通常 指 的 是 那些 使 用 经 典 模型 搭建 的 机 器 学 习 系 统 。 研 发 人 员 
每 提出 一 个 新 模型 ,都 需要 和 基线 系统 在 多 个 具有 代表 性 的 数据 集 上 进行 性 能 比较 的 测试 。 随 机 森林 分 类 模型 就 经 常 以 基线 系统 的 身份 
出 现在 科研 论文 ,甚至 公开 的 数据 竞赛 中 。 


Om “基础 篇 : 65 : 


. 
L1. —< < n — 


2.1.2.1 AMES 


。 模型 介绍 : 在 "2.1.1.1 线 性 分 类 器 2” 节 中 ,重点 介绍 了 用 于 分 类 的 线性 模型 。 其 
中 为 了 便于 将 原本 在 实数 域 上 的 计算 结果 映射 到 (0,1) 区 间 , 引 入 了 巡 辑 斯 带 也 
数 。 而 在 线性 回归 问题 中 ,由 于 预测 目标 直接 是 实数 域 上 的 数值 ,因此 优化 目标 
就 更 为 简单 , 即 最 小 化 预测 结果 与 真实 值 之 间 的 差异 。 
参考 式 (1) , 当 使 用 一 组 m 个 用 于 训练 的 特征 回 量 天 — — x! x^. x" 二 和 其 对 应 
的 回归 目标 三 二 六 ,交加 二 时 ,我 们 和 硕 望 线性 回归 模型 可 以 最 小 二 乘 (Generalized 
Least Squares) 预测 的 损失 LOw.50 , An t — KR. £k TE In] UH 28 KY BF W. DG 16 H ËR ANR C13) 
Wrzn ç 


argmin L (w,b) = argmin >) (f(w.x.b)— y* )° (13) 

同样 ,为 了 学 习 到 决定 模型 的 参数 (Parameters) , 即 系数 w 和 截 距 5, 仍然 可 以 使 用 
一 种 精确 计算 的 解析 算法 和 一 种 快速 的 随机 梯度 下 降 (Stochastic Gradient Descend) fi 
计算 法 2 。 我 们 会 在 编程 实践 中 向 各 位 介绍 如 何 使 用 它们 。 

。 数据 描述 :“ 美 国 波士顿 地 区 房价 预测 ?的 数据 描述 可 以 通过 代码 34 获得 : 
| 代码 34: 美国 波士顿 地 区 房价 数据 描述 x 
(00 >>> JÁ skleam.datasets 导 入 波士顿 房价 数据 读 取 器 。 

>>> fram sklearn.datasets import load boston 

>>># 从 读 取 房价 数据 存储 在 变量 boston 中。 

>>> bostor= load boston () 

>>># 输 出 数据 描述 。 

>>> print boston.DESCR 

Nurber of Instances: 506 


Nurber of Attributes: 13 numeric/categorical predictive 
Median Value (attribute 14) is usually the target 


Attribute Infomation (in order): 
- CRIM per capita crime rate by town : 
- ZN proportion of residential land zoned for lots over 25,000 sq.ft. ! 


Q 拓展 小 贴 士 20: 事实 上 ,不 管 是 随机 梯度 上 升 (SGA) 还 是 随机 梯度 下 降 (SGD) ,都 隶属 于 用 梯度 法 迭代 渐进 估计 参数 的 过 程 。 梯 
度 上 升 用 于 目标 最 大 化 ,梯度 下 降 用 于 目标 最 小 化 。 在 线性 回归 中 ,我 们 会 接触 优化 目标 最 小 化 的 方程 。 


: 66 : 


LE 
- INDUS proportion of non- retail business acres per town 
- CHAS Charles River dmy variable ©1 if tract bounds river; 0 otherwise) 
-NK nitric oxides concentration (parts per 10 million) 
-M average nurber of roms per dwelling 
-AE proportion of owner- occupied units built prior to 1940 
-DIS weighted distances to five Boston employment centres 
- RAD index of accessibility to radial highways 
- TAX full- value property- tax rate per $ 10,000 
-PIRATIO pupil- teacher ratio by town 
-B 1000 (Bk - 0.63) ^2 where Bk is the proportion of blacks by town 
- LSIAT % lower status of the population 
- MEDV Median value of owner- occupied hanes in $ 1000's 
‘Missing Attribute Values: None 


" 
" 
` 
` 
` 
' 
` 
. 
` 
" 
` 
` 
" 
. 
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我 们 节选 了 部 分 有 价值 的 用 于 数据 描述 的 输出 。 总 体 而 言 ,该 数据 共有 506 条 美国 
波士顿 地 区 房价 的 数据 ,每 条 数据 包括 对 指定 房屋 的 13 项 数值 型 特征 描述 和 目标 房价 。 
另外 ,该 数据 中 没有 缺失 的 属性 /特征 值 (Missing Attribute Values) ,更 加 方便 了 后 续 的 
分 析 。 接 下 来 “2.1.2 回归 预测 ? 节 所 有 的 模型 都 将 使 用 代码 35 中 分 割 出 的 训练 和 测试 


数据 ，。 


| 代码 35. 美国 波士顿 地 区 房价 数据 分 割 


>>># 从 skleam.cross validation 导 和 人 数据 分 割 器 。 
>>> frm skleam.cross validation import train test split 


>>> + À. nmpy 并 重 命名 为 mp. 
>>> import numpy as np 


>>> X-boston.data 
>>> y-boston.target 


>>># 随 机 采样 25% 的 数据 构建 测试 样本 ,其余 作为 训练 样本 。 


>>>X train, X test, y train, y test-train test split(X, y, Iandom state- 33, test size- 0.25) 


>>> #4 EA H br (EU HH. 
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>>> print "The max target value is", np.max (boston.target) 
>>> print "The min target value is", np.min (boston.target) 
>>> print "The average target value is", np.mean (boston.target) 


The max target value is 50.0 
The min target value is 5.0 


The average target value is 22.5328063241 | 


不 过 在 上 述 对 数据 的 初步 查验 中 发 现 , 预 测 目 标 房 价 之 间 的 差异 较 大 ,因此 需要 对 特 
征 以 及 目标 值 进行 标准 化 处 理 了 ,如 代码 36 所 示 。 


| 代码 36. 训练 与 测试 数据 标准 化 处 理 


>>> 4 JÀ skearm.preprocessing 导 和 人 数据 标准 化 模块 。 
>>> fram sklearn.preprocessing import StandardScaler 


>>># 分 别 初始 化 对 特征 和 目标 值 的 标准 化 器 。 
>>> ss X- Standardscaler () 
>>> ss y-StandardScaler () 


>>># 分 别 对 训练 和 测试 数据 的 特征 以 及 目标 值 进行 标准 化 处 理 。 

>>>X train-ss X.fit transform(X train) 

>>>X test-ss X.transform(X test) 

22» y train-ss y.fit transform(y train) 
>>>y test-ss y.transfom(y test) |] 


。 编程 实践 : TEHE fj PAY ZR RR LinearRegression 和 SGDRegressor 分 

别 对 波士顿 房价 数据 进行 训练 学 习 以 及 预测 ,如 代码 37 所 示 。 
| 代码 37. 使 用 线性 回归 模型 LinearRegression 和 SGDRegressor 分 别 对 美国 波士顿 : 
地 区 房价 进行 预测 


>>> +# J), skleam.linear model A LinearRegression, 
>>> fram sklearn.linear model import LinearRegression 


Q 拓展 小 贴 士 21: 也 许 有 读者 朋友 会 质疑 将 真实 房价 也 做 标准 化 处 理 的 做 法 。 事 实 上 ,尽管 在 标准 化 之 后 ,数据 有 了 很 大 的 变化 。 
但 是 我 们 依然 可 以 使 用 标准 化 器 中 的 inverse transform 函数 还 原 真 实 的 结果 ;并 且 ,对 于 预测 的 回归 值 也 可 以 采用 相同 的 做 法 进行 还 原 。 
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>>># 使 用 默认 配置 初始 化 线性 回归 器 LinearRegressicn。 
>>> lr= LinearRegression () 

>>># 使 用 训练 数据 进行 参数 估计 。 

>>> lr.fit (X train, y train) 

>>># 对 测试 数据 进行 回归 预测 。 

>>> r y predict- lr.predict (X test) 


>>> #)\ skleam.linear model A SGDRegressor。 

>>> fram skleamn.linear model import SGDRegressor 

>>># 使 用 默认 配置 初始 化 线性 回归 器 SacRegressor, 

>>> sgdr- SG[Regressor () 

>>># 使 用 训练 数据 进行 参数 估计 。 

>>> sgdr.fit(X train, y train) 

>>># 对 测试 数据 进行 回归 预测 。 i 
>>> sgdr_y predict- sgdr.predict X test) E 


。 性 能 测评 : 不 同 于 类 别 预测 ,我 们 不 能 奇 求 回归 预测 的 数值 结果 要 严格 地 与 真实 
值 相同 。 一 般 情况 下 ,我们 希望 衡量 预测 值 与 真实 值 之 间 的 差距 。 因 此 ,可 以 通 
过 多 种 测评 函数 进行 评价 。 其 中 最 为 直观 的 评价 指标 包括 ,平均 绝对 误差 (Mean 
Absolute Error. MAE) 以 及 均 方 误差 (Mean Squared Error,MSE), 因 为 这 也 是 线 
性 回归 模型 所 要 优化 的 目标 。 
假设 测试 数据 共有 mm 个 目标 数值 y =< yoy? ory” 二 ,并 且 记 y 为 回归 模型 的 预 
测 结果 ,那么 具体 计算 MAE 的 步骤 如 式 (14) 与 式 (15) 所 示 。 


SS, = >, | yi—y| (14) 
i=] 

MAE = >> (15) 
nmn 


ii MSE 的 计算 方法 如 式 (16) 和 式 (17) 所 示 。 


SS, = >) Of — 7)? (16) 
im] 
MSE = > (17) 


然而 , 差 值 的 绝对 值 或 者 平方 ,都 会 随 着 不 同 的 预测 问题 而 变化 巨大 ,欠缺 在 不 同 问 
题 中 的 可 比 性 。 因 此 ,我们 要 考虑 到 测评 指标 需要 具备 某 些 统计 学 含义 。 类 似 于 分 类 问 
题 评 价 中 的 准确 性 指标 ,回归 问题 也 有 R-squared 这 样 的 评价 方式 , 既 考 量 了 回归 值 与 真 


实 值 的 差异 ,同时 也 兼顾 了 问题 本 身 直 实 值 的 变动 。 假 设 f(x) 代表 回归 模型 根据 特征 
向 量 zx’ 的 预测 值 ,那么 R-squared 具体 的 计算 如 式 (18) 与 式 (19) 所 示 。 


Vy (18) 
i=1 
SS 
2 — res 
R° = 1 SS. (19) 


其 中 SS, 代表 测试 数据 真实 值 的 方差 (内 部 差异 ); SS 代表 回归 值 与 真实 值 之 间 的 平方 
差异 (回归 差异 )。 所 以 在 统计 含义 上 ,R-squared 用 来 衡量 模型 回归 结果 的 波动 可 被 真 
实 值 验证 的 百分比 ,也 暗示 了 模型 在 数值 回归 方面 的 能 力 。 

下 面 的 代码 不 仅 展示 了 如何 使 用 Scikit-learn 自 带 的 上 述 三 种 回归 评价 模块 ,同时 还 
介绍 了 调 取 R-squared 评价 函数 的 两 种 方式 ， 


| 代码 38. 使 用 三 种 回归 评价 机 制 以 及 两 种 调用 R-squared 评价 模块 的 方法 ,对 
本 市 模型 的 回归 性 能 做 出 评价 


>>># 使 用 LinearRegression 模 型 自 带 的 评估 模块 ,并 输出 评估 结果 。 
>>> print. "The value of default measurement of LinearRegression is', lr.score(X test, y test) 


>>># JÁ skleam.metrics 依次 导入 r2 sore, man squared error 以 及 mean absoluate error FH T [Bl IH x 


性 能 的 评估 。 
>>> fram sklearn.metrics import r2 score, mean squared error, mean absolute error 


>>> HEH r2 score iU ,并 输出 评估 结果 。 
>>> print "Ihe value of R- squared of LinearRegression is', r2 score(y test, lr y predict) 


>>># 使 用 mean squared error 模 块 , 并 输出 评估 结果 。 


>>> print "Ihe mean squared error of LinearRegression is', mean squared error(ss y.inverse transform 


(y test), ss y.inverse transfomm(lr y predict)) 


>>> 使 用 mean absolute error 模 块 ,并 输出 评估 结果 。 


>>>print 'The mean absoluate error of LinearRegression is', mean absolute error (ss y.invrse - 


transform(y test), ss y.inverse transfomn(lr y predict)) 
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Tre value of default measurement. of LinearRegressicn is 0.6763403831 


Tre value of R- squared of LinearRegressicn is 0.6763403831 
The mean Squared error of LinearRegressicn is 25.0969856921 
The mean absoluate error of LinearRegression is 3.5261239964 


>>># 使 用 SGrRegressor 模 型 自 带 的 评估 模块 ,并 输出 评估 结果 。 
>>> print "The value of default measurement of SGDRegressor is', sgdr.score(X test, y test) 


>>># 使 用 r2 score 模块 ,并 输出 评估 结果 。 
>>> print "The value of R- squared of SGTRegmressor is', r2 score(y test, sgdr y predict) 


>>> # fii FA mean squared error 模块 ,并 输出 评估 结果 。 
>>> print "The mean squared error of SGDRegressor is', mean squared error(ss y.inverse transform(y | 
test), ss y.inverse transform(sgdr y predict)) - 


>>> # {Ë} mean absolute error 模 块 ,并 输出 评估 结果 。 : 
>>> print "The mean absoluate error of SGDRegressor is', mean absolute error(ss y.inverse transform : 
(y test), ss y.inverse transform(sgdr y predict)) : 


The value of default measurement of SGTRegressor is 0.659853975749 
The value of R- squared of SGDRegressor is 0.659853975749 

The mean Squared error of SGiRegressor is 26.3753630607 

The mean absoluate error of SGTRegressor is 3.55075990424 


. 
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通过 代码 38 的 输出 ,我们 知道 两 种 调用 R-squared 的 方式 是 等 价 的 。 后 续 有 关 回 归 
模型 的 评价 ,我们 都 会 采用 第 一 种 方式 , 即 回归 模型 白带 的 评估 模块 来 完成 性 能 的 评估 。 
另外 ,也 可 以 看 出 尽管 三 种 评价 方式 R-squared、MSE 以 及 MAE 在 具体 评估 结果 上 不 
[n] ,但 是 在 评价 总 体 优 劣 程度 的 趋势 上 是 一 致 的 。 

里 然 , 使 用 随机 梯度 下 降 估 计 参 数 的 方法 SGDRegressor 在 性 能 表现 上 不 及 使 用 解 
析 方 法 的 LinearRegression; 但 是 如 果 面 对 训练 数据 规模 十 分 庞大 的 任务 ,随机 梯度 法 不 
论 是 在 分 类 还 是 回归 问题 上 都 表现 得 十 分 高 效 , 可 以 在 不 损失 过 多 性 能 的 前 提 下 ,节省 大 
量 计算 时 间 。 请 读者 在 今后 的 使 用 中 ,根据 预测 任务 的 数据 规模 ,参考 图 2-8 选择 合适 的 
模型 。 根 据 Scikit-learn 官网 的 建议 ,如 果 数 据 规模 超过 10 万 ,推荐 使 用 随机 梯度 法 估计 


scikit-learn 
algorithm cheat-sheet 


clustering 


dimensionality 
reduction 


图 2-8 Scikit-learn 工具 包 模 型 使 用 建议 (图 片 来 源 于 http: / /scikit-learn. org/stable/tutorial/machine 
_learning_map/ index. html)( 见 彩 图 ) 


° 特点 分 析 : 线性 回归 需 是 最 为 简单 、. 易 用 的 回归 模型 。 正 是 因为 其 对 特征 与 回归 
目标 之 间 的 线性 假设 ,从 某 种 程度 上 说 也 局 限 了 其 应 用 范围 。 特 别 是 ,现实 生活 
中 的 许多 实例 数据 的 各 个 特征 与 回归 目标 之 间 , 绝 大 多 数 不 能 保证 严格 的 线性 关 
系 。 这 一 点 ,在 “2.1.1.5 决策 树 ” 节 中 想必 已 有 感受 。 尽 管 如 此 ,在 不 清楚 特征 
之 间 关 系 的 前 提 下 ,我 们 仍然 可 以 使 用 线性 回归 模型 作为 大 多 数 科学 试验 的 基线 
系统 (Baseline system) , 


2.1.2.2 支持 向 量 机 (回归 ) 


。 模型 介绍 : 想必 读者 朋友 已 经 对 2. 1. 1.2 支持 向 量 机 (分 类 ) 中 提 到 的 分 类 模型 
的 作用 机 理 有 所 了 解 。 本 节 介 绍 的 支持 向 量 机 (回归 ) 也 同样 是 从 训练 数据 中 选 
取 一 部 分 更 加 有 效 的 支持 问 量 ,只 是 这 少 部 分 的 训练 样本 所 提供 的 并 不 是 类 别 目 
标 ,而 是 具体 的 预测 数值 。 

。 编程 实践 : 继续 使 用 “2. 1. 2. 1 线性 回归 需 ?” 中 分 割 处 理 好 的 训练 和 测试 数据 ; 同 
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时 在 本 书 中 第 一 次 修改 模型 初始 化 的 默认 配置 ,以 求 在 代码 39 中 展现 不 同 配置 


下 模型 性 能 的 差异 ,也 为 后 续 章 节 要 介绍 的 内 容 做 个 铺垫 。 


| 代码 39: 使 用 三 种 不 同 核 函 数 配置 的 支持 向 量 机 回归 模型 进行 训练 并 且 分 别 对 


测试 数据 做 出 预测 


>>># 从 skleam.swm 中 导入 支持 向 量 机 (回归 ) 模 型 。 
>>> from skleam.swm import SVR 


>>># 使 用 线性 核 函数 配置 的 支持 向 量 机 进行 回归 训练 ,并 且 对 测试 样本 进行 预测 。 
>>> linear svr- SVWR(kemel= 'linear') 

>>> linear svr.fit(X train, y train) 

>>> linear svr y predict- linear svr.predict X test) 


>>> HEH £ 3 OAK OR CC PL BJ >< Fe Ip] it BUE TT IL UH A HA BE AS 2E TT HM. 


>>> poly svr- SVR (kerne]= 'poly') 
>>> poly svr.fit(X train, y train) 
>>>poly svr y predict-poly svr.predict(X test) 


>>># 使 用 径 向 基 核 函数 配置 的 支持 向 量 机 进行 回归 训练 ,并 且 对 测试 样本 进行 预测 。 


>>> bf svr- SVR(kernel- 'rbf') 
>>> rbf svr.fit(X train, y train) 
>>> rbf svr y predict-rbf svr.predict X test) 
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° 性 能 测评 : 接 下 来 将 继续 在 代码 40 "P iA Td E Pw Pic EE F Se F 10] hr BL In] BE 
FE WW A E A AE RE ali TET. o8 = H PEBE DU TE FT A 3. A8 [8] fic a F 03 
模型 在 相同 测试 集 上 ,存在 着 非常 大 的 性 能 差异 。 并 且 在 使 用 了 径 回 基 (CRadial 
basis function) 核 图 数 对 特征 进行 非 线性 映射 之 后 ,支持 回 量 机 展现 了 最 佳 的 回 


归 性 能 。 


| 代码 40; 对 三 种 核 函 数 配 置 下 的 支持 向 量 机 回归 模型 在 相同 测试 集 上 进行 性 能 


评估 


>>># 使 用 R- squared, MSE 和 ME 指标 对 三 种 配置 的 支持 向 量 机 (回归 ) 模 型 在 相同 测试 集 上 进行 


性 能 评估 。 
>>> fram sklearn.metrics import r2 score, mean absolute error, mean squared error 


>>> print 'R- squared value of linear SVR is', linear svr.score X test, y test) 
>>> print "The mean squared error of linear SVR is', mean squared error (ss y.inverse transform(y ` 
test), ss y.inverse transform(linear svr y predict)) | 
>>> print "The mean absoluate error of linear SVR is', mean absolute error (ss ; y.inverse transform(y ` 
test), ss y.inverse transfomm(linear svr y predict)) 
R- squared value of linear SVR is 0.65171709743 

The mean Squared error of linear SVR is 26.6433462972 

The mean absoluate error of linear SVR is 3.53398125112 


>>> print 'R- squared value of Poly SVR is', poly svr.score(X test, y test) 
>>> print 'The mean squared error of Poly SVR is', mean squared error(ss y.inverse transfom(y | 
test), ss y.inverse transform(poly svr y predict)) 3 
>>> print "Ihe mean absoluate error of Poly SVR is', mean absolute error(ss y.inverse transform(y | 
test), ss y.inverse transfomm(poly svr y predict)) : 
R- squared value of Poly SVR is 0.404454058003 

The mean squared error of Poly SVR is 46.179403314 

The mean absoluate error of Poly SVR is 3.75205926674 


>>> print 'R- squared value of REF SVR is', rbf svr.score(X test, y test) 
>>> print "Ihe mean squared error of RBF SVR is', mean squared error(ss y.inverse transfom(y test), : 
ss y.inverse transform(rbf svr y predict)) | 
>>> print "Ihe mean absoluate error of REF SVR is', mean absolute error(ss y.inverse transform(y | 
test), ss y.inverse transform(rbf svr y predict)) 3 
R- squared value of REF SVR is 0.756406891227 
The mean squared error of REF SVR is 18.8885250008 | 
The mean absoluate error of RBF SVR is 2.60756329798 |] 


° FEAT CT BUB IE TB 5e fe I Xs E r R 3009 FE BE 25 
异 。 特 别 是 除了 2.1.1. 2 节 支 持 向 量 机 (分 类 ) 模 型 里 曾经 提 到 过 的 特点 之 外 ,该 
系列 模型 还 可 以 通过 配置 不 同 的 核 函 数 " 来 改变 模型 性 能 。 因 此 ,建议 读者 在 使 
用 时 多 答 试 几 种 配置 ,进而 获得 更 好 的 预测 性 能 。 


D 拓展 小 贴 士 22: 核 函 数 是 一 项 非常 有 用 的 特征 映射 技巧 ,同时 在 数学 描述 上 也 略为 复杂 。 因 此 本 书 不 做 过 度 引 申 。 简 单一 些 理 
fit , 便 是 通过 某 种 函数 计算 ,将 原 有 的 特征 映射 到 更 高 维度 的 空间 ,从 而 尽 可 能 达到 新 的 高 维度 特征 线性 可 分 的 程度 ,如 图 2-9 所 示 。 结 合 
支持 向 量 机 的 特点 ,这 种 高 维度 线性 可 分 的 数据 特征 恰好 可 以 发 挥 其 模型 优势 。 
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Input Space Feature Space 


图 2-9 利用 核 函 数 $ 将 线性 不 可 分 的 低 维 输入 ,映射 到 高 维 可 分 的 
新 特征 空间 ,图片 摘自 于 互联 网 由 ( 见 彩 图 ) 


2.1.2.3 K 近邻 (回归 ) 


。 模型 介绍 : 在 2.1.1.4 天 近邻 (分 类 ) 中 提 到 了 这 类 模型 不 需要 训练 参数 的 特点 。 
在 回归 任务 中 ,天 近邻 (回归 ) 模 型 同样 只 是 借助 周围 K 个 最 近 训 练 样本 的 目标 
数值 ,对待 测 样本 的 回归 值 进 行 决策 。 上 日 然 , 也 衍生 出 衡量 竺 测 样本 回归 值 的 不 
同方 式 , 即 到 底 是 对 K 个 近邻 目标 数值 使 用 普通 的 算术 平均 算法 ,还 是 同时 考虑 
距离 的 差异 进行 加 权 平 均 。 因 此 ,本 节 也 初始 化 不 同 配置 的 天 近邻 (回归 ) 模 型 
来 比较 回归 性 能 的 差异 。 

° 编程 实践 : 代码 41 展示 了 如 何 使 用 两 种 不 同 配置 的 天 近邻 回归 模型 对 美国 波 士 
顿 房价 数据 进行 回归 预测 。 


[ «& 41: 使 用 两 种 不 同 配置 的 K 近邻 回归 模型 对 美国 波士顿 房价 数据 进行 x 
| 回归 预测 x 


>>># 从 skleam.neighbors S À. RNeighborRegressor(K 近 邻 回归 器 ) , 
>>> fram skleam.neighbors import KNeighborsRegressor 


>>> +H IRAE KUT SB [P| UH ae , 3F E. 38] SE BP E , (88 BUM B0 Jy zü 2 EIS [B] IH : weights- 'uniform'. 
>>> uni_knr= KNeighborsRegressor (weights- 'uniform') 

>>>uni_knr.fit @ train, y train) 

»»»uni knr y predict-uni knr.predict X test) 


>>># 初 始 化 KK 近邻 回归 器 ,并 且 调 整 配置 ,使 得 预测 的 方式 为 根据 距离 加 权 回 归 : weights- | 
'distance', : 


(D http://pt. egg-life. net/article/157687 


>>> dis knr- KNeighiborsFegressor (weights= 'distance') 
>>> dis knr.fit(X train, y train) 7 
>>>dis knr y predict=dis knr.predict X test) | 


° 性 能 测评 : 接 下 来 我 们 将 继续 使 用 代码 42 ,就 不 同 回归 预测 配置 下 的 天 近邻 模 
型 进行 性 能 评估 。 其 输出 表明 : 相 比 之 下 ,采用 加 权 平 均 的 方式 回归 房价 具有 更 
好 的 预测 性 能 。 


| 代码 42: 对 两 种 不 同 配置 的 K 近邻 回归 模型 在 美国 波士顿 房价 数据 上 进行 预测 
性 能 的 评估 
>>># 使 用 R_ squared.MsE 以 及 ME 三 种 指标 对 平均 回归 配置 的 K 近 邻 模型 在 测试 集 上 进行 性 能 评 
估 。 : 
>>> print 'R- squared value of uniform- weighted KNeighorRegression:', uni knr.score X test, y test) 3 
>>> print "The mean squared error of unifomm- weighted KNeighorRegression:', mean squared error(ss - 
y-inverse transfomn(y test), ss y.inverse transform(uni_knr y predict)) | 
>>> print "The mean absoluate error of uniform weighted KNeighorRegression', mean absolute error (ss ` 
_y- inverse transform(y test), ss y.inverse transform(uni knr y predict)) 


R- squared value of uniform- weighted KNeighorRegression: 0.690345456461 
The mean squared error of uniform- weighted KNeighorRegression: 24.0110141732 
The mean absoluate error of uniform- weighted KNeighorRegression 2.96803149606 


>>> 4 š FH R- squared.MSE 以 及 MPE 三 种 指标 对 根据 距离 加 权 回 归 配 置 的 K 近 邻 模型 在 测试 集 上 进 、 
行 性 能 评估 。 
>>> print 'R- squared value of distance- weighted KNeighorRegression:', dis knr.score(X test, y test) : 
>>> print "The mean squared error of distance- weighted KNeighorRegression:', mean squared error(ss_ | 
y-inverse transform(y test), ss y.inverse transform(dis knr y predict)) | 
>>> print "The mean absoluate error of distance- weighted KNeighorRegression:', mean absolute error : 
(ss y.inverse transform(y test), ss y.inverse transfom(dis knr y predict)) : 
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R- squared value of distance- weighted KNeighorRegression: 0.719758997016 
The mean squared error of distance- weighted KNeighorRegression: 21.7302501609 : 
The mean absoluate error of distance- weighted KNeighorRegression: 2.80505687851 | 


° 特点 分 析 : K 近邻 (回归 ) 与 天 近邻 (分 类 ) 一 样 , 均 属于 无 参数 模型 (Nonparametric 
model) ,同样 没有 没有 参数 训练 过 程 。 但 是 由 于 其 模型 的 计算 方法 非常 直观 , 因 
此 深 受 广大 初学 者 的 喜爱 。 本 节 讨 论 了 两 种 根据 数据 样本 的 相似 程度 预测 回归 
值 的 方法 ,并 且 验 证 采用 天 近邻 加 权 平 均 的 回归 策略 可 以 获得 较 高 的 模型 性 能 ， 
供 读者 参考 ， 


2.1.2.4 回归 树 


。 模型 介绍 : 回归 树 在 选择 不 同 特征 作为 分 裂 节 点 的 策略 上 ,与 2. 1. 1.5 决策 树 的 
思路 类 似 。 不 同 之 处 在 于 ,回归 树叶 节点 的 数据 类 型 不 是 离散 型 ,而 是 连续 型 。 
决策 树 每 个 叶 节 点 依照 训练 数据 表现 的 概率 倾 问 决定 了 其 最 终 的 预测 类 别 ; 而 回 
归 树 的 叶 节点 却 是 一 个 个 具体 的 值 ,从 预测 值 连续 这 个 意义 上 严格 地 讲 , 回 归 树 
不 能 称 为 “回归 算法 ”。 因 为 回归 树 的 叶 节 点 返回 的 是 “一 团 ” 训 练 数据 的 均值 ,而 
不 是 具体 的 、 连 续 的 预测 值 。 

° 编程 实践 : 在 本 节 使 用 Scikit-learn 中 的 DecisionTreeRegressor 对 “美国 波士顿 
房价 ”数据 进行 回归 预测 ,如 代码 43 所 示 。 


[ sa, 使 用 回归 树 对 美国 波士顿 房价 训练 数据 进行 学 习 , 并 对 测试 数据 进行 预测 


>>> # M skleam.tree rH # À. DecisionTreeRegressor, 

>>> from sklearn.tree import DecisionTreeRegressor 

>>># 使 用 默认 配置 初始 化 DecisionTresRegressor, 

>>> dtr= DecisionTreeRegressor () 

>>># 用 波士顿 房价 的 训练 数据 构建 回归 树 。 

»»»dtr.fit(X train, y train) i 
>>># 使 用 默认 配置 的 单一 回归 树 对 测试 数据 进行 预测 ,并 将 预测 值 存储 在 变量 dtr oy | 
predict 中。 


>>>dtr_y predict=dtr.predict X test) | 


° 性 能 测评 : 然后 在 代码 44 中 ,对 默认 配置 的 回归 树 在 测试 集 上 的 性 能 做 出 评估 。 
JF H. ,该 代码 的 输出 结果 优 于 2.1.2.1 线 性 回归 需 一 节 LinearRegression 与 
SGDRegressor 的 性 能 表现 。 因 此 ,可 以 初步 判断 ”美国 波士顿 房价 预测 ?问题 的 
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特征 与 目标 值 之 间 存 在 一 定 的 非 线性 关系 。 


[ RE 4. 对 单一 回归 树 楼 型 在 美国 波士顿 房价 测试 数据 上 的 预测 性 能 进行 评估 
>>> HË R- squared, ME 以 及 ME 指标 对 默认 配置 的 回归 树 在 测试 集 上 进行 性 能 评估 。 
>>> print. 'R- squared value of DecisionTreeRegressor:', dtr.score(X test, y test) 
>>> print 'The mean squared error of DecisionTreeRegressor: ', mean Squared error(ss y. inverse - 
transform(y test), ss y.inverse transform(dtr y predict)) | 
>>> print 'The mean absoluate error of DecisionTreeRegressor:', mean absolute error(ss y.inverse : 
transform(y test), ss y.inverse transform(dtr y predict)) 
R- squared value of DecisionTreeRegressor: 0.694084261863 
The mean squared error of DecisioriTreeRegressor: 23.7211023622 
The mean absoluate error of DecisionTreeRegressor: 3.14173228346 


。 特点 分 析 : 在 系统 地 介绍 了 决策 (分 类 ) 树 与 回归 树 之 后 ,可 以 总 结 这 类 树 模 型 的 
优点 : 山 树 模型 可 以 解决 非 线 性 特征 的 问题 ; 包 树 模型 不 要 求 对 特征 标准 化 和 统 
一 量化 , 即 数 值 型 和 类 别 型 特征 都 可 以 直接 被 应 用 在 树 模型 的 构建 和 预测 过 程 
中 ; 多 因为 上 述 原因 , 树 模型 也 可 以 直观 地 输出 决策 过 程 , 使 得 预测 结果 具有 可 

同时 , 树 模型 也 有 一 些 显著 的 缺陷 : 办 正 是 因为 树 模 型 可 以 解决 复 灯 的 非 线 
性 拟 合 问题 ,所 以 更 加 容易 因为 模型 搭建 过 于 复杂 而 丧失 对 新 数据 预测 的 精度 
( 泛 化 力 ); 辐 树 模型 从 上 至 下 的 预测 流程 会 因为 数据 细微 的 更 改 而 发 生 较 大 的 
结构 变化 ,因此 预测 稳定 性 较 差 ; 依托 训练 数据 构建 最 佳 的 树 模 型 是 N P 难 问 
题 , 即 在 有 限时 间 内 无 法 找到 最 优 解 的 问题 ,因此 我 们 所 使 用 类 似 贪 禁 算 法 的 解 
法 只 能 找到 一 些 次 优 解 ,这 也 是 为 什么 我 们 经 常 便 助 集成 模型 ,在 多 个 次 优 解 中 
寻 竟 更 高 的 模型 性 能 。 


2.1.2.5 集成 模型 (回归 ) 


模型 介绍 : 在 “2. 1. 1.6 集成 模型 (分 类 )” 节 中 ,曾经 探讨 过 集成 模型 的 大 致 类 型 
和 优势 。 这 一 节 除 了 继续 使 用 普通 随机 森林 和 提升 树 模型 的 回归 器 版 本 之 外 ,还 
要 补充 介绍 随机 森林 模型 的 另 一 个 变种 : 极端 随机 森林 (Extremely Randomized 
Trees) 。 与 普通 的 随机 森林 (Random Forests) 模 型 不 同 的 是 ,极端 随机 森林 在 每 
当 构 建 一 棵 树 的 分 裂 节点 Cnode) 的 时 候 , 不 会 任意 地 选取 特征 ;而 是 先 随机 收集 
一 部 分 特征 . RIG Al AA f S i (Information Gain) 和 基尼 不 纯 性 (Gini Impurity) 等 
指标 挑选 最 佳 的 节点 特征 。 
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° 编程 实践 : 本 节 将 使 用 Scikitlearn 中 三 种 集成 回归 模型 , 即 RandomForestRegressor , 
ExtraTreesRegressor 以 及 GradientBoostingRegressor 对 “美国 波士顿 房价 ”数据 
进行 回归 预测 ,如 代码 45 所 示 。 


| 代码 45: 使 用 三 种 集成 回归 模型 对 美国 波士顿 房价 训练 数据 进行 学 习 , 并 对 测试 
数据 进行 预测 x 
> > > # 从 skleam. ensemble 中 导 À RandaorestRegressor、ExtraTreesGressor 以 及 
tient ti ' : 
>>> fram sklearn.enserble import RandomForestRegressor, ExtraTreesRegressor, 
tient ti 


>>># 使 用 RandanforestRegressor 训练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 rfr y 
predict rp , : 
>>> rfr= RandcmEorestRegressor () 

>>> rfr.fit (xX train, y train) 

>>> rfr y predict- rfr.predict (X test) 


>>> # 使 用 ExtraTreesRegressor 训练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 etr_ y 
predict 中 , : 
>>> etr= ExtraTreesRegressor () 

»»»etr.fit(X train, y train) 

»»»etr y predict- etr.predict (X test) 


>>># 使 用 GradientBoostingRegressor 训 练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 dor y | 
predict rf , : 
>>> gor- GradientBoostingRegressor () 

>>> qpr.fit X train, y train) : 
>>> gor y predict= gor.predict (X test) | 


° 性 能 测评 : 同时 ,还 可 以 使 用 代码 46 对 上 述 三 种 集成 回归 模型 在 “波士顿 房价 ” 数 
据 的 预测 能 力 进 行 评估 ,比较 它们 性 能 上 的 差异 。 
| 46. 对 三 种 集成 回归 模型 在 美国 波士顿 房价 测试 数据 上 的 回归 预测 性 能 
进行 评估 
>>># 使 用 R- spared, MSE 以 及 ME 指标 对 默认 配置 的 随机 回归 森林 在 测试 集 上 进行 性 能 评估 。 
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>>> print 'R- squared value of RandamForestRegressor:', rfr.score(X test, y test) 
>>> print 'The mean squared error of RandamPorestRegressor:', mean squared error (ss y. imwerse | 
transform(y test), ss y.inverse transform(rfr y predict)) : 
>>> print "The mean absoluate error of RandamForestRegressor:', mean absolute error (ss_y. inverse ` 
transform(y test), ss y.inverse transform(rfr y predict)) | 


R- Squared value of RandamForestRegressor: 0.802399786277 
The mean Squared error of RandamForestRegressor: 15.322176378 
The mean absoluate error of RandamForestRegressor: 2.37417322835 


>>># 使 用 R- squared, ME 以 及 ME 指标 对 默认 配置 的 极端 回归 森林 在 测试 集 上 进行 性 能 评估 。 

>>> print 'R- squared value of ExtraTreesRegessor:', etr.score(X test, y test) : 
>>> print 'The mean squared error of  ExtraTreesRegessor: ', mean Squared error (ss y.inverse | | 
transform(y test), ss y.inverse transform(etr y predict)) 7 
>>> print "The mean absoluate error of ExtraTreesRegessor:', mean absolute error(ss_y. inverse _ 3 
transform(y test), ss y.inverse transform(etr y predict)) : 


>>># 利 用 训练 好 的 极端 回归 森林 模型 ,输出 每 种 特征 对 预测 目标 的 贡献 度 。 
>>> print rp.sort (zip(etr.feature importances , bostcn.feature names), axis- 0) 


R- Squared value of ExtraTreesRegessor: 0.81953245067 
The mean Squared error of  ExtraTreesRegessor: 13.9936874016 
The mean absoluate error of ExtraTreesRegessor: 2.35881889764 


[['0.00197153649824' 'AGE'] 
['0.0121265798375' 'B'] 
['0.0166147338152' 'CHAS'] 
['0.0181685042979' 'CRIM'] 
['0.0216752406979' 'DIS'] 
['0.0230936940337' 'INDUS'] 
['0.0244030043403' 'LSTAT'] 
['0.0281224515813' "NOK") 
['0.0315825286843' 'PTRATIO!] 
['0.0455441477115' 'RAD'] 
['0.0509648681724' 'RM'] 


:80 :Phra 机 器 学 习 及 实 路 ieseisslsellsLl ll ll Lll LLL DLL 2D Dll lll- 
['0.355492216395' "TAX'] 
['0.370240493935' 'ZN']] 


>>># 使 用 R- squared, MSE 以 及 ME 指标 对 默认 配置 的 梯度 提升 回归 树 在 测试 集 上 进行 性 能 评估 。 
>>> print. 'R- squared value of GradientBoostingRegressor:', gor.score(X test, y test) i 
>>> print "The mean squared error of GradientBoostingRegressor:', mean squared error (ss y.inverse : 
transform(y test), ss y.inverse transfom(gor y predict)) : 
>>> print "The mean absoluate error of GradientBoostingRegressor:', mean absolute error(ss y.inverse : 
_transform(y test), ss y.inverse transfomn(gor y predict)) : 


R- squared value of GradientBoostingRegressor: 0.842602871434 
The mean squared error of GradientBoostingRegressor: 12.2047771094 
The mean absoluate error of GradientBoostingRegressor: 2.28597618665 


° 特点 分 析 : 许多 在 业界 从 事 商业 分 析 系 统 开 发 和 搭建 的 工作 者 更 加 青睐 集成 模 

型 ,并 且 经 前 以 这 些 模型 的 性 能 表现 为 基准 ,与 新 设计 的 其 他 模型 性 能 进行 比 对 。 

昌 然 这 些 集成 模型 在 训练 过 程 中 要 耗费 更 多 的 时 间 ,但 是 往往 可 以 提供 更 高 的 表 
现 性 能 和 更 好 的 稳定 性 。 

右 是 对 我 们 在 “2.1.2 回归 预测 ? 节 所 有 介绍 过 的 模型 在 “美国 波士顿 房价 预测 问题 

上 的 性 能 进行 排序 比较 ,也 可 以 发 现 使 用 非 线性 回归 树 模 型 ,特别 是 集成 模型 ,能 够 取得 
更 高 的 性 能 表现 ,如 表 2-1 所 示 。 

表 2-1 多 种 经 典 回 归 模 型 在 “美国 波士顿 房价 预测 ”问题 的 回归 预测 能 力 排名 


[ET 
SVM Regressor (Linear Kernel) 0. 6517 27.76 
SVM Regressor (Poly Kernel) 0. 4045 46. 18 


“> 22 无 监督 学 习 经 典 模型 


无 监督 学 习 (Unsupervised Learning) 着 重 于 发 现 数据 本 身 的 分 布 特点 。 与 监督 学 习 
(Supervised Learning) A [n] ,无 监督 学 习 不 需要 对 数据 进行 标记 。 这 样 ,在 节省 大 量 人 工 
的 同时 ,也 让 可 以 利用 的 数据 规模 变 得 不 可 限量 。 

从 功能 角度 讲 , 无 监督 学 习 模 型 可 以 帮助 我 们 发 现 数据 的 “群落 (2. 2. 1 数据 聚 类 )， 
同时 也 可 以 寻找 “ 离 群 ?的 样本 ;另外 ,对 于 特征 维度 非常 高 的 数据 样本 ,我 们 同样 可 以 通 
过 无 监督 的 学 习 对 数据 进行 降 维 (2. 2. 2 特征 降 维 ) ,保留 最 具有 区 分 性 的 低 维度 特征 。 
这 些 都 是 在 海量 数据 处 理 中 是 非常 实用 的 技术 。 


2.2.1 数据 聚 类 


数据 聚 类 是 无 监督 学 习 的 主流 应 用 之 一 。 最 为 经 典 并 且 易 用 的 聚 类 模型 , 当 属 K H 
值 (K-means) 算 法 。 该 算法 要 求 我 们 预先 设 定 聚 类 的 个 数 , 然 后 不 断 更 新 聚 类 中 心 ; 经 过 
几 轮 这 样 的 迭代 ,最 后 的 目标 就 是 要 让 所 有 数据 点 到 其 所 属 聚 类 中 心 距离 的 平方 和 趋 于 
稳定 。 


2.2.1.1 K 均值 算法 


。 模型 介绍 : 这 是 在 数据 聚 类 中 是 最 经 典 的 ,也 是 相对 容易 理解 的 模型 。 算 法 执行 
的 过 程 分 为 4 个 阶段 ,如 图 2-10 所 示 : 由 首先 ,随机 布设 个 特征 空间 内 的 点 作 
为 初始 的 聚 类 中 心 ; 包 然 后 ,对 于 根据 每 个 数据 的 特征 回 量 ,从 天 个 聚 类 中 心中 
寻找 距离 最 近 的 一 个 ,并 且 把 该 数据 标记 为 从 属于 这 个 聚 类 中 心 ; 名 接着 ,在 所 
有 的 数据 都 被 标记 过 聚 类 中 心 之 后 ,根据 这 些 数 据 新 分 配 的 类 艇 ,重新 对 K 个 聚 
类 中 心 做 计算 ; 由 如 果 一 轮 下 来 ,所 有 的 数据 点 从 属 的 聚 类 中 心 与 上 一 次 的 分 配 
的 类 簇 没 有 变化 ,那么 迭代 可 以 停止 ;否则 回 到 步骤 乌 继 续 循 环 。 
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图 2-10 K-means 算法 迭代 过 程 示例 ,图 片 摘自 于 互联 网 由 ( 见 彩 图 ) 


。 数据 描述 :“2. 1. 1.2 支持 向 量 机 (分 类 )” 节 曾经 使 用 了 手写 体 数 字 图 像 数 据 。 只 
是 ,Scikit-learn 内 部 集成 的 仅仅 是 原 数 据 集 合 的 一 部 分 。 在 本 节 , 我 们 将 使 用 这 
份 手写 体 数字 图 像 数 据 的 完整 版 本 。 读 者 可 以 通过 下 面 这 个 链接 访问 该 数据 集 : 
https://archive. ics. uci. edu/ ml/machine-learning-databases/optdigits/ 。 我 们 节 


选 了 部 分 有 价值 的 数据 描述 ,并 展示 如 下 : 


1. Title of Database: Optical Recognition of Handwritten Digits 
5. Nutber of Instances 

cptdigits.tra Training 3823 

cptdigits.tes Testing 1797 


The way we used the dataset was to use half of training for 
actual training, one- fourth for validation and one- fourth 
for writer- dependent testing. The test set was used for 
writer- independent testing and is the actual quality measure. 


(D https://sites. google. com/site/myecodriving/ k-means-ju-lei-fen-xi 
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7. For Each Attribute: 
All input attributes are integers in the range 0..16. 
The last attribute is the class oode 0..9 


8. Missing Attribute Values 


i: C — G (n 4 WN HL O 
.. .. .. .. .. .. .. .. .. .. 


由 上 面 的 数据 描述 ,我 们 可 以 知道 完整 的 手写 体 数字 图 像 分 为 两 个 数据 集合 。 其 中 ， 
训练 数据 样本 3823 条 ,测试 数据 1797 条 ;图 像 数 据 通 过 8 >x 8 的 像素 矩阵 表示 ,共有 64 
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个 像素 维度 ;1 个 目标 维度 用 来 标记 每 个 图 像样 本 代表 的 数字 类 别 。 该 数据 没有 缺失 的 
特征 值 ,并 且 不 论 是 训练 还 是 测试 样本 ,在 数字 类 别 方面 都 采样 得 非常 平均 ,是 一 份 非常 
规整 的 数据 集 。 


° 编程 实践 : 下 面 就 通过 代码 47 对 这 份 数 据 的 图 像 特征 进行 K-means 聚 类 示例 。 


| 代码 47: as 算法 在 手写 体 数字 图 像 数据 上 的 使 用 示例 


>>># 分 别 导 和 人 nupy. matplotlib 以 及 pandas, 用 于 数学 运算 、 作 图 以 及 数据 分 析 。 
>>> import numpy as np 

>>> import matplotlib.pyplot as plt 

>>> import pandas as pd 


>>> +Ë pandas 分 别 读 取 训练 数据 与 测试 数据 集 。 : 
>>> digits train- pd. read csv ('https://archive. ics. uci. edu/ml/machine - leaming- databases/ ` 
aptdigits/optdigits.tra header- None) x 
>>> digits test- pd. read csv (' https://archive. ics. uci. edu/ml/machine — leaming - databases/ ` 
optdigits/optdigits.tes', header- None) : 


>>># 从 训练 与 测试 数据 集 上 都 分 离 出 @4 维 度 的 像素 特征 与 1 维度 的 数字 目标 。 
>>>X train-digits train[np.arange (64) ] 
>>>y traim digits train[64] 


>>>X test-digits test [np.arange (64) ] 
>>>y test-digits test[64] 


>>> #M skleam.cluster 中 导入 KMeans 模 型 。 
>>> fram skleam.cluster import KMeans 


>>># 初 始 化 Reans 模 型 ,并 设置 聚 类 中 心 数 量 为 10, 

>>> kmeans- KMeans (n clusters- 10) 

>>> kmeans.fit(X train) 

>>> 4 XE ZR PL 8 EAW bÚ Pq Hr Ji 05] 3E 28 D. | 
>>> y pred- kmeans.predict (X test) _| 


° 性 能 测评 : 也 许 有 些 读者 会 困惑 于 如 何 评估 聚 类 算法 的 性 能 ,特别 是 应 用 在 没有 
标注 类 别 的 数据 集 上 的 时 候 。 针 对 不 同 的 数据 特点 ,这 里 作者 提供 两 种 方式 。 
(1) 如 果 被 用 来 评估 的 数据 本 身 带 有 正确 的 类 别 信息 ,那么 就 如 代码 48 一 样 使 用 


Adjusted Rand Index (ARD 。ARI 指 标 与 分 类 问题 中 计算 准确 性 (Accuracy) 的 方法 类 
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似 , 同 时 也 兼顾 到 了 类 艇 无 法 和 分 类 标记 一 一 对 应 的 问题 。 


[ 代码 48: 使 用 ARI 进行 K-means 聚 类 性 能 评估 


>>># 从 skleam 导 人 度量 函数 库 metrics, 
>>> fram skleam import metrics 
>>> +Í H] ART 进行 EMeans 聚 类 性 能 评估 。 


>>> print metrics.adjusted rand score (y test, y pred) | 


0. 665144851397 


(2) 如 果 被 用 于 评估 的 数据 没有 所 属 类 别 , 那 么 我 们 习惯 使 用 轮廓 系数 (Silhouette 
Coefficient) 来 度量 聚 类 结果 的 质量 。 轮 廓 系数 同时 兼顾 了 聚 类 的 凝聚 度 (Cohesion) 和 分 
Bi BÉ (Separation) ,用 于 评估 聚 类 的 效果 并 且 取 值 范 围 为 [一 1, 1]。 轮 廓 系数 值 越 大 , 表 
示 聚 类 效果 越 好 。 具 体 的 计算 步骤 如 下 : 四 对 于 已 聚 类 数据 中 第 个 样本 二, 计算 x: 与 
其 同一 个 类 得 内 的 所 有 其 他 样本 距离 的 平均 值 , 记 作 a’. 用 于 量化 簇 内 的 凝聚 度 
(Cohesion); O3 BC ri 外 的 一 个 簇 5b, 计算 产 与 艇 六 中 所 有 样本 的 平均 距离 ,遍历 所 有 其 
—— —À 记 作 b. ATEK Z [Al GP SE (Separation) ; OX FF 


本 ,轮廓 系数 为 sc = — 4, Osea a FAT PEAR X 求 出 平均 值 即 为 当前 聚 类 结 


果 的 整体 轮廓 系数 。 由 轮廓 系数 的 计算 公式 ,不 难 发 现 : 如 果 sc 小 于 0, 说 明 产 与 其 能 
内 元 素 的 平均 距离 大 于 最 近 的 其 他 艇 ,表示 聚 类 效果 不 好 ;如 果 a! 趋 于 0, 或 者 5 足够 大 ， 
那么 sc 趋 近 与 1, 说 明 聚 类 效果 比较 好 。 为 了 进一步 形象 地 说 明 轮 廓 系数 与 聚 类 效果 的 
关系 ,使 用 代码 49 对 一 组 简单 的 数据 进行 分 析 。 


| 代码 49. ETT. AMER SEH Cannas 聚 类 实例 


>>> # A nay. 

>>> import nunpy as np 

>>>#M sklearn.cluster 中 导入 REans 算 法 包 。 

>>> fram skleam.cluster import KMeans 

>>># 从 skleam.metrics St À. silhouette score 用 于 计算 轮廓 系数 。 
>>> fram sklearn.metrics import silhouette score 

>>> import matplotlib.pyplot as plt 


>>># Bik 3* 22647 FA ,并 在 1 号 子 图 作 图 。 
>>> plt.sukplot (3,2,1) 
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>>># 初 始 化 原始 数据 点 。 

>>> xl- np.array([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 7, 9]) 
>>> x2 np.array ([1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 1, 3]) 
»»»X-np.array(zip(xl, x2)) .reshape (len (x1), 2) 


>>># 在 1 号 子 图 做 出 原始 数据 点 阵 的 分 布 。 
>>>plt.xlim([0, 10]) 

>>>plt.ylim([0, 10]) 

>>> plt.title('Instances') 
>>>plt.scatter (xl, x2) 


>>> colors= ['b', ‘g', "r', 'C', 'm', v, 'k', 'b'] 


>>> markers= oa". d: "Ds 3i. ia rit nu ' x a t4 EI 


>>> clusters= [2, 3, 4, 5, 8] 

>>> subplot counter- 1 

>>> sc_scores= [] 

>>> for t in clusters: 

>>> Subplot counter + —1 

>>> plt.subplot (3, 2, subplot counter) 

>>> kmeans model= KMeans (n clusters- t) .fit (X) 


>>> for i, lin enumerate (kmeans model.labels ) : 
>>> plt.plot(xl[i], x2[i], color= colors[1], marker=markers[1], 1s= 'None') 


>>> plt.xlim([0, 10]) 
>>> plt.ylim([0, 10]) 
>>> SC Score- silhouette score (X, kmeans model.labels , metric 'euclidean') 


>>> sc scores.append(sc score) 


>>>+# 绘 制 轮廓 系数 与 不 同类 复数 量 的 直观 显示 图 。 
>>>  plt.title('K-$5, silhouette coefficient=%0.03f' $ (t, sc score)) 


>>># 绘 制 轮廓 系数 与 不 同类 簇 数 量 的 关系 曲线 .。 
>>>plt.figure () 


>>>plt.plot (clusters, sc scores, '* - ') 
>>> plt.xlabel ("Number of Clusters') 
>>> plt.ylabel ("Silhouette Coefficient Score") 


>>> plt.show () | 
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图 2-11 利用 轮廓 系数 评价 不 同类 艇 数量 的 K-means 聚 类 结果 示例 ( 见 彩 图 ) 


从 代码 49 所 输出 的 图 2-12 ,我 们 得 知 当 聚 类 中 心 数量 为 3 的 时 候 , 轮 廓 系数 最 大 ;此 


fe 
. . 
. . 
LJ LJ 
: 88 : 
LJ LJ 
. - 
. . 
eee 


Pyhom 机 器 学 习 及 实践 


Silhouette Coefficient Score 
° ° ° ° 
n. Ln Un e 
un a Un eo 


eo 
~ 
o 


0.35 


2 3 4 5 6 7 8 
Number of Clusters 


2-12 ”轮廓 系数 与 不 同类 艇 数量 的 关系 曲线 


时 ,我 们 从 图 2-11 也 可 以 观察 到 聚 类 中 心 数量 为 3 也 符合 数据 的 分 布 特点 ,的 确 是 相对 
较为 合理 的 类 艇 数量。 

° 特点 分 析 : 下 -means 聚 类 模型 所 采用 的 迭代 式 算 法 ,直观 易 懂 并 且 非 常 实用 。 只 

是 有 两 大 缺陷 : J 容易 收敛 到 局 部 最 优 解 ;@ 需要 预先 设 定 簇 的 数量 。 

首先 解释 什么 叫做 局 部 最 优 解 。 假 设 图 2-13 左 侧 为 实际 数据 以 及 正确 的 所 属 类 簇 。 
如 果 聚 类 算法 可 以 收敛 至 全 局 最 优 解 ,那么 三 个 类 簇 的 聚 类 中 心 应 如 右 侧 Global 
Optimum Jr zs , 聚 类 结果 同 正 确 结果 一 致 。 但 是 ,K-means 算法 无 法 保证 能 够 使 得 三 个 
类 簇 的 中 心 迭代 至 上 述 的 全 局 最 优 解 。 相 反 很 有 可 能 受到 随机 初始 类 簇 中 心 点 位 置 的 影 
啊 ,最 终 迭 代 到 如 右 侧 Local Optimum 所 示 的 两 种 情况 而 收 人 全。 这 样 便 导 致 无 法 继续 更 
新 聚 类 中 心 ,使 得 聚 类 结果 与 正确 结果 又 很 大 出 人。 这 是 算法 自身 的 理论 缺陷 所 造成 的 ， 
无 法 轻易 地 从 模型 设计 上 弥补 ; 却 可 以 通过 执行 多 次 K-means 算法 来 挑选 性 能 表现 更 好 
的 初始 中 心 点 ,这 样 的 工程 方法 代替 。 

然后 ,我 们 介绍 一 种 “ 肘 部 ”观察 法 用 于 粗略 地 预 估 相 对 合理 的 类 簇 个 数 。 因 为 K- 
means 模型 最 终 期 望 所 有 数据 点 到 其 所 属 的 类 簇 距离 的 平方 和 趋 于 稳定 ,所 以 我 们 可 以 
通过 观察 这 个 数值 随 着 K 的 走势 来 找 出 最 佳 的 类 艇 数量。 理想 条 件 下 ,这 个 折线 在 不 断 
下 降 并 且 趋 于 平缓 的 过 程 中 会 有 斜率 的 抛 点 ,同时 意味 着 从 这 个 抛 点 对 应 的 天 值 开始 ， 


LOCAL OPTIMA 


Æ 2-13 K-means 算法 迭 全 局 最 优 解 与 局 部 最 优 解 的 比较 ,图 片 摘自 于 互联 网 0( 见 彩 图 ) 


类 禾 中 心 的 增加 不 会 过 于 破坏 数据 聚 类 的 结构 。 以 代码 50 为 例 , 如 图 2-14 所 示 随 机 采样 
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(D http://www. cnblogs. com/python27/p/MachineLearningWeek08, html 
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三 个 类 族 的 数据 点 。 通 过 图 2-15 发 现 , 类 艇 数量 为 1 或 2 的 时 候 ,样本 距 所 属 类 艇 的 平 
均 距离 的 下 降 速 度 很 快 ,这 说 明 更 改 KK 值 会 让 整体 聚 类 结构 有 很 大 改变 ,也 意味 着 新 的 
聚 类 数量 让 算法 有 更 大 的 收敛 空间 ,这 样 的 天 值 不 能 反映 真实 的 类 簇 数量 。 而 当 KK 二 3 
时 ,平均 距离 的 下 降 速 度 有 了 显著 放 缓 ,这 意味 着 进一步 增加 天 值 不 再会 有 利于 算法 的 
收敛 ,也 同时 暗示 着 K = 3 是 相对 最 佳 的 类 簇 数 量 。 


2.5 Selecting k with the Flbow Method 
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| 代码 50:“ 肘 部 ”观察 法 示例 


>>># 导 人 必要 的 工具 包 。 

>>> import numpy as np 

>>> from sklearn.cluster import KMeans 

>>> fram scipy.spatial.distance import cdist 
>>> import matplotlib.pyplot as plt 


>>>+# 使 用 均匀 分 布 函数 随机 三 个 复 ,每 个 能 周围 10 个 数据 样本 。 
>>> clusterl= mp.randm.unifom(0.5, 1.5, (2, 10)) 
>>> cluster2=rp.rarnckm.uniform(5.5, 6.5, (2, 10)) 
>>> cluster3- np.randam.uniform(3.0, 4.0, (2, 10)) 
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>>> + Beth] 30 个 数据 样本 的 分 布 图 像 。 

>>> X= np.hstack((clusterl, cluster2, cluster3)).T 
>>> plt.scatter X[:,0], X[:, 1]) 

>>> plt.xlabel ('xl') 

>>> plt.ylabel ("x2") 

>>> plt.show () 


>>> + Wit 9 种 不 同 聚 类 中 心 数量 下 ,每 种 情况 的 聚 类 质量 ,并 作 图 。 
>>> K= range (1, 10) 
>>> meandistortions= [] 


>>> for k in K: 

>>> kmeans= KMeans (n clusters- k) 

>>> kmeans .fit (X) 

>>> meandistortions.append (sum(np.min(odist(X, kmeans.cluster centers , 
'euclidean'), axis- 1)) /X.shape[0]) 


>>>plt.plot (K, meandistortions, 'bx- ') 

>>> plt.xlabel ('k') 

>>> plt. ylabel ("Average Dispersion") 

>>> plt.title ("Selecting k with the Elbow Method") 


>>> plt.show () | 


2.2.2 特征 降 维 


特征 降 维 是 无 监督 学 习 的 另 一 个 应 用 ,目的 有 二 : 其 一 ,我 们 会 经 常 在 实际 项 目 中 唱 
遇 特 征 维度 非常 之 高 的 训练 样本 ,而 往往 又 无 法 借助 自己 的 领域 知识 人 工 构建 有 效 特 征 ; 
其 二 ,在 数据 表现 方面 ,我 们 无 法 用 肉眼 观测 超过 三 个 维度 的 特征 。 因 此 ,特征 降 维 不 仅 
重 构 了 有 效 的 低 维度 特征 回 量 ,同时 也 为 数据 展现 提供 了 可 能 。 在 特征 降 维 的 方法 中 , 主 
成 分 分 析 (Principal Component Analysis) 是 最 为 经 由 和 实用 的 特征 降 维 技术 ,特别 在 辅 
助 图 像 识 别 方面 有 突出 的 表现 。 


2.2.2.1 主 成 分 分 析 


。 模型 介绍 : 首先 我 们 思考 两 个 小 例子 ,这 也 是 作者 经 凋 用 来 四 周围 朋友 解释 降低 
维度 .信息 元 余 和 PCA 功能 的 。 


EE Phho 机 器 学 习 及 实践 5 
如 代码 51 所 示 ,我 们 有 一 组 2<X 2 的 数据 [[1, 2].[2. 4]]。 假 设 这 两 个 数据 都 反映 
到 一 个 类 别 ( 分 类 ) 或 者 一 个 类 簇 ( 聚 类 )。 如 果 我 们 的 学 习 模 型 是 线性 模型 ,那么 这 两 个 
数据 其 实 只 能 帮助 权重 参数 更 新 一 次 ,因为 他 们 线性 相关 ,所 有 的 特征 数值 都 只 是 扩张 了 
相同 的 倍数 ;如 果 使 用 PCA 分 析 的 话 ,这 个 矩阵 的 “ 秩 ? 是 1, 也 就 是 说 ,在 多 样 性 程度 上 ， 
这 个 矩阵 只 有 一 个 自由 度 。 


51: 线性 相关 和 矩阵 秩 计 算 样 例 

”>>># 导 入 nmpy 工 具 包 。 
>>> import numpy as np 
>>># 初 始 化 一 个 2* 2092: PET E EE , 
>>>M=rp.array([[1, 2], [2, 411) 
>>># 计 算 2% 2 线性 相关 和 矩阵 的 秩 。 : 
>>> np.linalg.matrix rank(M, tol- None) | 
1 


再 比如 ,图 2-16 所 示 的 几 张 花 洒 图片。 是 试图 把 三 维 物体 重新 映射 在 二 维 照片 的 过 
程 。 在 这 个 过 程 中 ,可 以 有 无 数 种 映射 的 角度 。 但 是 ,我 们 可 以 通过 肉眼 判断 出 ,最 后 一 
张 的 角度 最 为 合适 也 最 容易 分 辨 。 


d 


2-16 花 酒 多 角度 照片 ,分 别 是 从 后 .前 `、 上 ,以 及 最 适合 角度 拍摄 ,图片 摘自 参考 文献 [8j 


其 实 ,我 们 也 可 以 把 PCA 当 作 特征 选择 ,只 是 和 普通 理解 的 不 同 , 这 种 特征 选择 是 首 
先 把 原来 的 特征 空间 做 了 映射 ,使 得 新 的 映射 后 特征 空间 数据 彼此 正 交 。 这 样 一 来 ,我 们 
通过 主 成 分 分 析 就 尽 可 能 保留 下 具备 区 分 性 的 低 维 数据 特征 。 
。 数据 描述 : 本 节 我 们 依然 沿用 上 一 节 使 用 的 “手写 体 数字 图 像 ” 全 集 数据 。 因 为 
之 前 我 们 已 经 对 这 个 数据 集中 训练 .测试 样本 的 数量 ,图像 的 数码 维度 做 了 介绍 ， 
这 里 便 不 再 袭 述 。 而 是 从 主 成 分 分 析 技 术 方 便 展 示 数 据 的 角度 出 发 ,为 读者 朋友 
显示 经 过 PCA 处 理 之 后 ,这 些 数字 图 像 映 射 在 二 维 空间 的 分 布 情况 ,如 图 2-17 
所 示 。 尽 管 我 们 把 原始 六 十 四 维度 的 图 像 压 缩 到 只 有 二 个 维度 的 特征 空间 ,依然 
可 以 发 现 绝 大 多 数 数字 之 间 的 区 分 性 ,详细 过 程 请 见 代 码 52。 
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2-17 手写体 数 字 图 像 经 PCA 压缩 后 的 二 维 空 间 分 布 ( 见 彩 图 ) 


| 代码 52: 显示 手写 体 数字 图 片 经 PCA 压缩 后 的 二 维 空间 分 布 


>>># 导 人 pandas 用 于 数据 读 取 和 处 理 。 
>>> import pandas as pd 


>>># 从 互联 网 读 入 手写 体 图 片 识别 任务 的 训练 数据 ,存储 在 变量 digits traint. 
>>> digits train= pd. read csv ('https://archive. ics. uci. edu/ml/machine - leaming- databases] 
optdigits/optdigits.tra', header- None) 


>>># 从 互联 网 读 人 手写 体 图 片 识 别 任 务 的 测试 数据 ,存储 在 变量 digits test tH, 
>>> digits test- pd. read csv (' https://archive. ics. uci. edu/ml/machine - learning - databases/ 
optdigits/optdigits.tes', header- None) : 


>>> # 分割 训练 数据 的 特征 向 量 和 标记 。 
>>>X digits-digits train[np.arange (64) ] 


>>>y digits-digits train[64] 


»»»4JÀ sklearn.decamposition F AÀA PCA, 
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>>> fram skleam.deomposition import PCA 


>>># 初 始 化 一 个 可 以 将 高 维度 特征 向 量 ( 六 十 四 维 ) 压 缩 至 二 个 维度 的 Pca 
>>> estimator= ECA(n omponents= 2) 
>>>X pca-estimator.fit transform(X digits) 


>>># 显 示 10 类 手写 体 数 字 图 片 经 FA 压缩 后 的 2 维 空间 分 布 。 
>>> from matplotlib import pyplot as plt 


>>> def plot pca scatter(): 
>>> colors- ['black', 'blue', 'purple', 'yellow', 'white', 'red', 'lime', 


‘cyan', ‘orange', 'gray'] 


>>> for i in xrange (len (colors)): 


>>> px-X pca[:, 0][y digits.as matrix() --i] 
>>> py-X pca[:, 1] [y digits.as matrix()--i] 
>>> plt.scatter (px, py, c= colors[il) 


>>> plt.legend (np.arange (0,10) .astype (str) ) 
>>> plt.xlabel ("First Principal Component!) 
>>> plt.ylabel ("Second Principal Component ') 
>>> plt.show() 


>>> plot pca scatter () | 


° 编程 实践 : 我 们 在 “2. 1.1.2 支持 回 量 机 (分 类 )” 节 使 用 支持 回 量 机 分 类 模型 对 手 
写 体 数字 图 像 进行 识别 ,并 取得 了 很 好 的 预测 性 能 。 当 时 ,我 们 使 用 了 全 部 8X8 
— 64 维度 的 图 像 像素 特征 对 模型 进行 训练 。 这 一 节 ,我 们 通过 代码 53 ,分 别 训练 
两 个 以 支持 向 量 机 (分 类 ) 为 基础 的 手写 体 数字 图 像 识 别 模型 ,其 中 一 个 模型 使 用 
原始 六 十 四 维度 的 像素 特征 , 另 一 个 采用 经 过 PCA 压缩 重建 之 后 的 低 维特 征 。 


| 代码 53; 使 用 原始 像素 特征 和 经 PCA 压缩 重建 的 低 维特 征 ， 在 相同 配置 的 支持 
向 量 机 (分 类 ) 模 型 上 分 别 进行 图 像 识别 
>>># 对 训练 数据 .测试 数据 进行 特征 向 量 ( 图 片 像素 ) 与 分 类 目标 的 分 隔 。 
>>>X train-digits train[np.arange (64) ] 
>>>y train-digits train[64] 


>>>X test-digits test [np.arange (64)] 
>>>y test-digits test[64] 


>>># 导 人 基于 线性 核 的 支持 向 量 机 分 类 器 。 
>>> fram sklearn.svm import DinearSVC 


>>># 使 用 默认 配置 初始 化 neus XE AA HU GEHE A OE EHE OE 
数据 上 做 出 预测 ,存储 在 y predict 中 。 
>>> svc= LinearSVc () 

>>> svc.fit (X train, y train) 

>>> y predict- svc.predict (X test) 


>>># 使 用 ER 将 原 六 十 四 维 的 图 像 数据 压缩 到 20 个 维度 。 
>>> estimator= PCA(n_camponents= 20) 


>>>+ 利 用 训练 特征 决定 (fib 20 个 正 交 维度 的 方向 ,并 转化 (transform 原 训 练 特征 。 
>>>pca X train-estimator.fit transform(X train) 

>>># 测 试 特征 也 按照 上 述 的 20 个 正 交 维 度 方向 进行 转化 (transform , 

>>>pca_X test=estimator.transform(X test) 


>>> 4 使 用 默认 配置 初始 化 Iinearsvc, 对 压缩 过 后 的 二 十 维特 征 的 训练 数据 进行 建 模 ， 并 在 测试 
数据 上 做 出 预测 ,存储 在 pca y predict 中 。 


»»»pca svc- DinearSVC () 
»»»pca svc.fit(pca X train, y train) 
22» pca y predict-pca svc.predict(pca X test) | 


° 性 能 测评 : 代码 54 将 对 比 原始 维度 特征 与 经 过 PCA 压缩 重建 之 后 的 图 像 特征 ， 
在 相同 配置 的 文 持 回 量 机 (分 类 ) 模 型 上 识别 性 能 的 差异 。 
| 代码 54. 原始 像素 特征 与 PCA 压缩 重建 的 低 维 特征 ,在 相同 配置 的 支持 向 量 机 
(分 类 ) 模 型 上 识别 性 能 的 差异 
>>>#M sklearn.metrics Ẹ À classification report 用 于 更 加 细致 的 分 类 性 能 分 析 。 


>>> fram sklearn.metrics import classification report 


>>># 对 使 用 原始 图 像 高 维 像素 特征 训练 的 支持 向 量 机 分 类 器 的 性 能 作出 评估 。 
>>> print svc.score X test, y test) 
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>>>print classification report(y test, y predict, target names- np.arange (10) .astype (str) ) 


>>># 对 使 用 PA 压缩 重建 的 低 维 图 像 特征 训练 的 支持 向 量 机 分 类 器 的 性 能 作出 评估 。 
>>>print pca svc.score(pca X test, y test) 


>>> print classification report(y test, pca y predict, target names- np.arange (10) .astype (str) ) 


0.930996104619 
precision recall fl-score suport 


0 0.99 0.98 0.99 178 
1 0.94 0.84 0.89 182 
2 0.99 0.97 0.98 177 
3 0.97 0.92 0.94 183 
4 0.95 0.97 0.96 181 
5 0.89 0.96 0.93 182 
6 0.99 0.98 0.99 181 
7 0.98 0.90 0.94 179 
8 0.78 0.91 0.84 174 
9 0.86 0.89 0.87 180 

avg / total 0.93 0.93 0.93 1797 

0. 909293266555 


precision recall fl-score support 


0 0.96 0.96 0.96 178 
1 0.78 0.85 0.82 182 
2 0.96 0.98 0.97 177 
3 0.99 0.89 0.94 183 
4 0.95 0.92 0.93 181 
5 0.84 0.97 0.90 182 : 
6 0.96 0.97 0.96 181 | 
7 0.93 0.92 0.98 179 : 
8 0.83 0.83 0.83 174 : 
9 0.92 0.82 0.86 180 : 
avg / total 0.91 0.91 0.91 1797 | 


我 们 从 代码 54 的 输出 中 发 现 , 尽 管 经 过 PCA 特征 压缩 和 重建 之 后 的 特征 数据 会 损 
K 2%% 左 右 的 预测 准确 性 ,但 是 相 比 于 原始 数据 六 十 四 维度 的 特征 而 言 ,我 们 却 使 用 PCA 
压缩 并 且 降 低 了 68.75% 0 EE. 
° 特点 分 析 : 降 维 /压缩 问题 则 是 选取 数据 具有 代表 性 的 特征 ,在 保持 数据 多 样 性 
(Variance) 的 基础 上 ,规避 掉 大 量 的 特征 元 余 和 噪声 ,不 过 这 个 过 程 也 很 有 可 能 
会 损失 一 些 有 用 的 模式 信息 。 经 过 大 量 的 实践 证 明 , 相 较 于 损失 的 少 部 分 模型 性 
能 ,维度 压缩 能 够 节省 大 量 用 于 模型 训练 的 时 间 。 这 样 一 来 ,使 得 PCA 所 带 来 的 
模型 综合 效率 变 得 更 为 划算 。 


y 23 章 末 小 结 


作为 全 书 的 基础 与 核心 章节 之 一 ,笔者 希望 各 位 读者 朋友 在 阅读 完 本 章 后 ,能 够 对 经 
典 机 费 学 习 模 型 的 种 类 和 各 自 特性 有 所 了 解 。 

在 模型 种 类 方面 ,我们 希望 读者 朋友 可 以 回答 如 下 问题 . 

(1) 机 需 学 习 模 型 按照 可 使 用 的 数据 类 型 ,可 以 分 为 哪些 类 别 ? 

(2) 常见 的 监督 学 习 与 无 监督 学 习 的 模型 都 有 哪些 ? 

就 模型 特性 而 言 ,我 们 希望 大 家 可 以 总 结 和 归纳 : 

(1) 各 个 模型 分 别 基于 哪些 数学 假设 ? 

(2) 各 个 模型 适合 处 理 哪 类 数据 ? 

(3) 每 个 模型 在 使 用 方面 的 优 缺点 有 哪些 ? 

(4) 和 常见 的 用 于 评估 各 个 模型 的 性 能 指标 以 及 计算 方法 是 怎样 的 ? 

如 果 读 者 不 仅 可 以 回答 上 述 问 题 ,并 且 能 够 独立 实践 本 章 的 代码 ,那么 您 已 经 初步 具 
备 了 实践 机 器 学 习 经 典 模型 的 知识 及 能 力 , 期 竺 大 家 学 习 愉 快 。 本 章 所 有 数据 与 代码 示 
例 都 可 以 通过 此 链接 http://pan. baidu. com/s/1dENAUTr 以 及 http://pan. baidu. 
com/s/1kVo3fr5 Fak. 


xt Wr om 


在 第 2 章 中 ,我们 向 读者 介绍 了 大 量 经 典 的 机 器 学 习 模 型 ,并且 使 用 Python 编程 语 
言 分 析 这 些 模型 在 许多 不 同 现实 数据 上 的 性 能 表现 。 然 而 ,细心 的 读者 在 深入 人 研究 这 些 
数据 或 者 查阅 Scikit-learn 的 文档 之 后 就 会 发 现 : 所 有 我 们 在 第 2 章 中 使 用 过 的 数据 几 
乎 都 经 过 了 规范 化 处 理 ,而且 模型 也 大 多 只 是 采用 了 默认 的 初始 化 配置 。 换 言 之 ,尽管 我 
们 可 以 使 用 经 过 处 理 之 后 的 数据 ,在 默认 配置 下 学 习 到 一 套用 以 拟 合 这 些 数据 的 参数 ,并 
是 使 用 这 些 参数 和 默认 配置 取得 一 些 看 似 良 好 的 性 能 表现 ;但 是 我 们 仍然 无 法 回答 几 个 
最 为 关键 的 问题 : 实际 研究 和 工作 中 接触 到 的 数据 都 是 这 样 规整 的 吗 ? 难道 这 些 默 认 配 
置 就 是 最 佳 的 么 ?我 们 的 模型 性 能 是 否 还 有 提升 的 空间 ? 本 章 “3. 1 模型 使 用 技巧 ” 节 将 
会 帮助 读者 朋友 解答 上 述 疑 问 。 阅 读 完 这 一 节 , 相 信 各 位 读者 朋友 就 会 掌握 如 何 通 过 抽 
取 或 者 往 选 数据 特征 、 优 化 模型 配置 ,进一步 提升 经 典 模型 的 性 能 表现 。 

然而 , 随 着 近 些 年 机 器 学 习 人 研究 与 应 用 的 快速 发 展 ,经 典 模型 渐渐 无 法 满足 日 益 增长 
的 数据 量 和 复杂 的 数据 分 析 需 求 。 因 此 , 越 来 越 多 更 加 高 效 而 且 强 力 的 学 习 模 型 以 及 对 
应 的 程序 库 正 逐 渐 被 设计 和 编写 ,并 慢 慢 被 科 人 研 圈 和 工业 界 所 广泛 接受 与 采用 。 这 些 模 
型 和 程序 库 包 括 : 用 于 自然 语言 处 理 的 NLTK 程序 包 ; 词 向 量 技术 Word2Vec; 能 够 提供 
强大 预测 能 力 的 XGBoost 模型 ,以 及 Google 发 布 的 用 于 深度 学 习 的 Tensorflow 框架 等 
等 。 更 加 令 人 振奋 的 是 ,上 述 这 些 最 为 流行 的 程序 库 和 模型 , 不 但 提供 了 Python 的 编程 
接口 API, 而 且 有 些 成 为 Python 编程 语言 的 工具 包 , 更 是 方便 了 我 们 后 续 的 学 习 和 使 用 。 
因此 ,在 “3. 2 流行 库 / 模 型 实践 ? 节 将 会 带领 各 位 读者 一 同 领略 这 些 时 下 最 为 流行 的 程序 
库 和 新 模型 的 奥妙 。 


| » 31 模型 实用 技巧 


这 一 节 将 回 读 者 朋友 传授 一 系列 更 加 偏 问 于 实战 的 模型 使 用 技巧 。 相 信 各 位 读者 在 
第 2 草 中 品味 了 多 个 经 典 的 机 需 学 习 模 型 之 后 ,就 会 发 现 : 一 旦 我 们 确定 使 用 某 个 模型 ， 


本 书 所 提供 的 程序 库 就 可 以 帮助 我 们 从 标准 的 训练 数据 中 ,依靠 默认 的 配置 学 习 到 模型 
所 需要 的 参数 (Parameters); 接 下 来 ,我 们 便 可 以 利用 这 组 得 来 的 参数 指导 模型 在 测试 数 
据 集 上 进行 预测 ,进而 对 模型 的 表现 性 能 进行 评价 。 

但 是 ,这 套 方案 并 不 能 保证 : CD. 所 有 用 于 训练 的 数据 特征 都 是 最 好 的 ;(2) 学 习 得 
到 的 参数 一 定 是 最 优 的 ;(3) 默认 配置 下 的 模型 总 是 最 佳 的 。 也 就 是 说 ,我 们 可 以 从 多 个 
角度 对 在 前 面 所 使 用 过 的 模型 进行 性 能 提升 。 本 节 将 回 大 家 介绍 多 种 提升 模型 性 能 的 方 
式 , 包 括 如 何 预 处 理 数 据 .控制 参数 训练 以 及 优化 模型 配置 等 方法 。 


3.1.1 特征 提升 


早期 机 副 学 习 的 人 研究 与 应 用 , 受 模型 种 类 和 运算 能 力 的 限制 。 因 此 ,大 部 分 研发 人 员 
把 更 多 的 精力 放 在 对 数据 的 预 处 理 上 。 他 们 期 望 通过 对 数据 特征 的 抽取 或 者 入 选 来 达到 
提升 模型 性 能 的 目的 。 所 谓 特征 抽取 ,就 是 逐条 将 原始 数据 转化 为 特征 回 量 的 形式 ,这 个 
过 程 同 时 涉及 对 数据 特征 的 量化 表示 ;而 特征 租 选 则 更 进一步 ,在 高 维度 .已 量化 的 特征 
问 量 中 选择 对 指定 任务 更 有 效 的 特征 组 合 , 进 一 步 提 升 模型 性 能 。 


3.1.1.1 特征 抽取 

原始 数据 的 种 类 有 很 多 种 ,除了 数字 化 的 信号 数据 ( 声 纹 图像) ,还 有 大 量 符号 化 的 
文本 。 然 而 ,我 们 无 法 直接 将 符号 化 的 文字 本 号 用 于 计算 任务 ,而 是 需要 通过 某 些 处 理 手 
段 ,预先 将 文本 量化 为 特征 回 量 。 

有 些 用 符号 表示 的 数据 特征 已 经 相对 结构 化 ,并 且 以 字典 这 种 数据 结构 进行 存储 。 
这 时 ,我 们 使 用 Dict Vectorizer 对 特征 进行 抽取 和 回 量 化 。 比 如 下 面 的 代码 55. 


>>># 和 定义 一 组 字典 列表 ,用 来 表示 多 个 数据 样本 (每 个 字典 代表 一 个 数据 样本 ) 。 


>>> measurements= [('city': "Dubai', 'temperature': 33.), ('city': 'Iondon', 'temperature': 12.], u 


city': 'San Fransisco', 'temperature': 18.)] 

>>>#M sklearn.feature extraction 导入 DictVectorizer 
>>> fran skleam. feature extraction import DictVectorizer 
>>># 初 始 化 Dictvectorizer 特征 抽取 器 

>>> vec= DictVectorizer () 

>>># 输 出 转化 之 后 的 特征 矩阵 。 

>>> print vec.fit transform (measurements) .toarray () 

>>># 输 出 各 个 维度 的 特征 含义 。 


>>> print vec.get feature names() | 
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[[ 1. 0. 0. 33] 7 
[ 0. 1. O0. 12] : 
[ 0. 0. 1. 18.]] 


['city= Dibai', 'citye London', 'citys San Fransisco', 'temperatume'] | 


从 代码 55 的 输出 可 以 看 到 : 在 特征 回 量 化 的 过 程 中 ,DictVectorizer 对 于 类 别 型 
(Categorical) 与 数值 型 (Numerical) 特征 的 处 理 方 式 有 很 大 差异 。 由 于 类 别 型 特征 无 法 
直接 数字 化 表示 ,因此 需要 借助 原 特 征 的 名 称 , 组 合 产生 新 的 特征 ,并 采用 0/1 二 值 方 式 
进行 量化 ;而 数值 型 特征 的 转化 则 相对 方便 ,一 般 情况 下 只 需要 维持 原始 特征 值 即 可 。 

另外 一 些 文本 数据 则 表现 得 更 为 原始 ,几乎 没有 使 用 特殊 的 数据 结构 进行 存储 ,只 是 
一 系列 字符 串 。 我 们 处 理 这 些 数 据 , 比较 常用 的 文本 特征 表示 方法 为 词 袋 法 (Bag of 
Words): 顾名思义 ,不 考虑 词语 出 现 的 顺序 ,只 是 将 训练 文本 中 的 每 个 出 现 过 的 词汇 单 
独 视 作 一 列 特征 。 我 们 称 这 些 不 重复 的 词汇 集合 为 词 表 (Vocabulary) ,于 是 每 条 训练 文 
本 都 可 以 在 高 维度 的 词 表 上 映射 出 一 个 特征 回 量 。 而 特征 数值 的 常见 计算 方式 有 两 种 ， 
分 别 是 : CountVectorizer 和 TfidfVectorizer。 对 于 每 一 条 训练 文本 ,CountVectorizer H 
考虑 每 种 词汇 (Term) 在 该 条 训练 文本 中 出 现 的 频率 (Term Frequency)。 而 
TfidfVectorizer 除了 考量 革 一 词汇 在 当前 文本 中 出 现 的 频率 (Term Frequency) 之 外 , 同 
时 关注 包含 这 个 词汇 的 文本 条 数 的 倒数 (Inverse Document Frequency) 。 相 比 之 下 ,训练 
文本 的 条 目 越 多 ,TfidfVectorizer 这 种 特征 量化 方式 就 更 有 优势 。 因 为 我 们 计算 词 频 
(Term Frequency) 的 目的 在 于 找 出 对 所 在 文本 的 含义 更 有 页 献 的 重要 词汇 。 然 而 ,如 果 
一 个 词汇 几乎 在 每 篇 文本 中 出 现 , 说 明 这 是 一 个 篆 用 词汇 ,反而 不 会 帮助 模型 对 文本 的 分 
类 ;在 训练 文本 量 较 多 的 时 候 , 利 用 TfidfVectorizer 压制 这 些 常 用 词汇 的 对 分 类 决策 的 
干扰 ,往往 可 以 起 到 提升 模型 性 能 的 作用 。 

我 们 通常 称 这 些 在 每 条 文本 中 都 出 现 的 党 用 词汇 为 停 用 词 (Stop Words) ,如 英文 中 
的 the、a 等 。 这 些 停 用 词 在 文本 特征 抽取 中 经 和 常 以 黑 名 单 的 方式 过 滤 掉 ,并 且 用 来 提高 
模型 的 性 能 表现 。 下 面 的 代码 让 我 们 重新 对 “20 类 新 闻 文 本 分 类 ”问题 进行 分 析 处 理 , 这 
一 次 的 重点 在 于 列举 上 述 两 种 文本 特征 量化 模型 的 使 用 方法 ,并 比较 他 们 的 性 能 差异 。 


代码 56: 使 用 CountVectorizer 并 且 不 去 掉 停 用 词 的 条 件 下 ,对 文本 特征 进行 量化 
的 朴素 贝 叶 斯 分 类 性 能 测试 


>>># 从 skleam.datasets 里 导入 20 类 新 闻 文 本 数据 抓 取 器 。 
>>> frm skleam.datasets import fetch 20newsgroups 
>>># 从 互联 网 上 即时 下 载 新 闻 样 本 ,subset= 'all1' 人 参数 代表 下 载 全 部 近 2 万 条 文本 存储 在 变 


量 news 中 。 
>>> news= fetch 20newsgroups (subset- 'all') 


>>># M skleam.cross validation} train test split 模 块 用 于 分 割 数据 集 。 

>>> fram sklearn.cross validation import train test split 

>>># 对 news 中 的 数据 qata 进 行 分 割 ,25% 的 文本 用 作 测 试 集 ;75%s 作 为 训练 集 。 : 
>>>X train, X test, y train, y test- train test split (news.data, news.target, test size= 0.25, : 
randum state- 33) : 


>>># 从 sklearn.feature extraction.text 里 导 人 CountVectorizer 

>>> fram sklearn.feature extraction.text import CountVectorizer 

>>># 采 用 默认 的 配置 对 Countvectorizer 进行 初始 化 (默认 配置 不 去 除 英文 停 用 词 , DTI 
变量 count vec. 

>>> count vec- CountVectorizer () 


>>> 只 使 用 词 频 统 计 的 方式 将 原始 训练 和 测试 文本 转化 为 特征 向 量 。 
>>>X count trair count vec.fit transfomm(X train) 
>>>X count test- count vec.transfomm(X test) 


>>>#M skleam.naive hayes 里 导 和 人 朴素 贝 叶 斯 分 类 器 。 

>>> fram sklearn.naive bayes import MiltinamialNB 

>>> # f FH RUA B5 Bo SOME PS 48 ETT 39] HE 

>>>mb count-MiltinamialNB () 

>>># 使 用 朴素 贝 叶 斯 分 类 器 ,对 Countvectorizer( 不 去 除 停 用 词 ) 后 的 训练 样本 进行 参数 学 习 。 
»»»mnb count.fit(X count train, y train) 


>>># 输 出 模型 准确 性 结果 。 

>>> print 'The accuracy of classifying 20newsgroups using Naive Bayes (comtVectorizer without 
filtering stopwords):', mib count.score(X count test, y test) 

>>># 将 分 类 预测 的 结果 存储 在 变量 y count. predict 中 。 

>>> y count predict-mnb count.predict (X count test) 

>>> # Á, sklearn.metrics FA classification report, 

>>> fram sklearn.metrics import classification report 

>>># 输 出 更 加 详细 的 其 他 评价 分 类 性 能 的 指标 。 

>>>print classification report (y test, y count predict, target names- news.target names) 


10 102 : Pyhom 机 器 学 习 及 实践 


The accuracy of classifying 20newsgroups using Naive Bayes (Comtbectorier without tering 
stopwords) : 0.839770797963 


precision recall fl- score support 

alt.atheism 0.86 0.86 0.86 201 

cam.graphics 0.59 0.86 0.70 250 

camp.os .ms— windows .misc 0.89 0.10 0.17 248 

cam.sys.ikm.pc.hardware 0.60 0.88 0.72 240 

Camp. sys rec. hardware 0.93 0.78 0.85 242 

camp.windows.x 0.82 0.84 0.83 263 

misc. forsale 0.91 0.70 0.79 257 

rec. autos 0.89 0.89 0.89 238 

rec.motorcycles 0.98 0.92 0.95 276 

rec.sport.baseball 0.98 0.91 0.95 251 

rec.sport.hockey 0.93 0.99 0.96 233 

sci.crypt 0.86 0.98 0.91 238 

sci.electronics 0.85 0.88 0.86 249 

sci .med 0.92 0.94 0.93 245 

Sci.space 0.89 0.96 0.92 221 

soc.religion.christian 0.78 0.96 0.86 232 

talk.politics.guns 0.88 0.96 0.92 251 

talk.politics .mideast 0.90 0.98 0.94 231 

talk.politics.misc 0.79 0.89 0.84 188 

talk.religion.misc 0.93 0.44 0.60 158 
avg / total 0.86 0.84 0.82 4712 _ 


从 上 面 代码 的 输出 ,我们 可 以 知道 ,使 用 CountVectorizer 在 不 去 掉 停 用 词 的 条 件 下 ， 
对 训练 和 测试 文本 进行 特征 量化 ,并 利用 默认 配置 的 朴素 贝 叶 斯 分 类 希 ,在 测试 文本 上 可 
以 得 到 83. 977 加 的 预测 准确 性 。 而 且 , 平 均 精 度 、 召回 率 和 下 1 指标 ,分 别 是 0. 86,0. 84 
以 及 0. 82。 

接 下 来 ,让 我 们 使 用 与 代码 56 相同 的 训练 和 测试 数据 ,在 不 去 掉 停 用 词 的 条 件 下 利 
用 TfidfVectorizer 进行 特征 量化 ,并 且 评 估 模 型 性 能 。 


| 代码 57. 使 用 TfidfVectorizer 并 且 不 去 掉 停 用 词 的 条 件 下 ,对 文本 特征 进行 量化 
的 朴素 贝 叶 斯 分 类 性 能 测试 


>>> #M sklearn.feature extraction.text 里 分 别 导 入 TfidfVectorizer, 
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>>> fram sklearn.feature extraction.text import TfidfVectorizer 

>>># 采 用 默认 的 配置 对 TEidfvectorizer 进行 初始 化 (默认 配置 不 去 除 英文 停 用 词 , LIST 
变量 tfidf vec. 

>>> tfidf vec- TfidfVectorizer () 


>>> HEJH criar 的 方式 ,将 原始 训练 和 测试 文本 转化 为 特征 向 量 。 
>>>X tfidf train tfidf_vec.fit transform train) 
>>>X tfidf test-tfidf vec.transfom(X test) 


>>># 依 然 使 用 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,在 相同 的 训练 和 测试 数据 上 ， 对 新 的 特征 量化 方 

式 进行 性 能 评估 。 

>>>mb tfidf=MiltincmialNB () 

>>>mb tfidf.fit(X tfidf train, y train) 

>>> print 'The accuracy of classifying 20newsgroups with Naive Bayes (Tfidfvectorizer without 

filtering stopwords):', mb tfidf.score(X tfidf test, y test) 

>>>y tfidf predict-mnb tfidf.predict(X tfidf test) 

>>> print classification report (y test, y tfidf predict, target names- news.target names) 
The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without chtering 
stopwords) : 0.846349745331 


precision recall fl- score support 

alt.atheism 0.84 0.67 0.75 201 
camp.graphics 0.85 0.74 0.79 250 
Canp.os.ms- windows misc 0.82 0.85 0.83 248 
camp. sys.ikm.pc.hardware 0.76 0.88 0.82 240 
camp. sys rec. hardware 0.94 0.84 0.89 242 
camp.windows.x 0.96 0.84 0.89 263 
misc.forsale 0.93 0.69 0.79 257 

rec.autos 0.84 0.92 0.88 238 
rec.motorcycles 0.98 0.92 0.95 216 
rec.sport.baseball 0.96 0.91 0.94 251 
rec.sport.hockey 0.88 0.99 0.93 233 
sci.crypt 0.73 0.98 0.83 238 
Sci.electronics 0.91 0.83 0.87 249 
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sci med 0.97 0.92 0.95 245 
sci.space 0.89 0.96 0.93 221 
soc.religicn.christian 0.51 0.97 0.67 232 
talk.politics.guns 0.83 0.96 0.89 251 
talk.politics.mideast 0.92 0.97 0.95 231 
talk.politics.misc 0.98 0.€2 0.76 188 
talk. religion.misc 0.93 0.16 0.28 158 

avg / total 0.87 0.85 0.84 4712 ú 


由 上 述 代 码 的 输出 结果 ,可 得 出 结论 : 在 使 用 TfidfVectorizer 而 不 去 掉 停 用 词 的 条 
件 下 ,对 训练 和 测试 文本 进行 特征 量化 ,并 利用 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,在 测试 文 
本 上 可 以 得 到 比 Count Vectorizer 更 加 高 的 预测 准确 性 , 即 从 83. 977 % HEF $8] 84. 635%. 
而 且 ,平均 精度 、 召 回 率 和 F1 指标 都 得 到 提升 ,分 别 是 0.87.0. 85 以 及 0.84。 从 而 ,证 明 
了 前 面 叙 述 的 观点 :“ 在 训练 文本 量 较 多 的 时 候 , 利 用 TfidfVectorizer 压制 这 些 常 用 词汇 
的 对 分 类 决策 的 干扰 ,往往 可 以 起 到 提升 模型 性 能 的 作用 ”。 

最 后 ,让 我 们 使 用 下 面 的 代码 继续 验证 另 一 个 观点 :“ 这 些 停 用 词 (Stop Words) 在 文 
本 特征 抽取 中 经 常 以 黑 名 单 的 方式 过 滤 抒 ,并且 用 来 提高 模型 的 性 能 表现 ”。 


| 代码 58. 分 别 使 用 CountVectorizer 与 TfidfVectorizer, 并 且 去 掉 停 用 词 的 条 件 下 ， 
对 文本 特征 进行 量化 的 朴素 贝 叶 斯 分 类 性 能 测试 


>>># 继 续 沿用 代码 56 与 代码 57 中 导入 的 工具 包 ( 在 同一 份 源 代码 中 或 者 不 关闭 解释 器 环境 )， 
分 别 使 用 停 用 词 过 滤 配 置 初始 化 countvectorizer 5j TFidfvectorizer, | 
>>> count filter vec, tfidf filter vec- CountVectorizer (analyzer- 'word', stop words- 'english'), : 
Tfidfvectorizer (analyzer- 'word', stop words- 'english') 


>>># 使 用 带 有 停 用 词 过 滤 的 countvectorizer 对 训练 和 测试 文本 分 别 进 行 量化 处 理 。 
>>>X count filter train- count filter vec.fit transform(X train) 
22» X count filter test- count filter vec.transform(X test) 


>>># 使 用 带 有 停 用 词 过 滤 的 Tfiafvectorizer 对 训练 和 测试 文本 分 别 进行 量化 处 理 。 
>>>X tfidf filter train=tfidf filter vec.fit transform(X train) 
>>>X tfidf filter test-tfidf filter vec.transform(X test) 


>>># 初 始 化 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,并 对 countvectorizer 后 的 数据 进行 预测 与 准确 性 评 
fhe : 


>>>mnb count filter-MiltinamialNB () 

>>>mnb count filter.fit X count filter train, y train) 

>>> print 'The accuracy of classifying 20newsgroups using Naive Bayes (Comtsiectorizer by filtering 
Stopwords):', mb count filter.score(X count filter test, y test) 

>>> y count filter predict-mnb count filter.predict(X count filter test) 


>>># 初 始 化 另 一 个 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,并 对 Trianyectorizer 后 的 数据 进行 预测 与 准 

确 性 评估 。 

>>>mb tfidf filter-MiltinamialNB () 

>>>mb tfidf filter.fit(X tfidf filter train, y train) 

>>> print "The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer by fittering 
stopwords):', mb tfidf filter.score X tfidf filter test, y test) : 
>>> y tfidf filter predict-mnb tfidf filter.predict(X tfidf filter test) 


>>># 对 上 述 两 个 模型 进行 更 加 详细 的 性 能 评估 。 
>>> fram sklearn.metrics import classification report 


>>> print classification report (y test, y count filter predict, target names-news.target names) 
>>> print classification report(y test, y tfidf filter predict, target names-news.target names) 


The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer by filtering spend: 


0.863752122241 

The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer by filtering stopwords): 0. 
882640067912 

precision recall fl- score support 

alt.atheisn 0.85 0.89 0.87 201 

comp.graphics 0.62 0.88 0.73 250 

cam.os.ms- windows .misc 0.93 0.22 0.36 248 

camp. sys.ibm.pc. hardware 0.62 0.88 0.73 240 

cam. sys mac. hardware 0.93 0.85 0.89 242 

cam.windows.x 0.82 0.85 0.84 263 

misc.forsale 0.90 0.79 0.84 251 

rec.autos 0.91 0.91 0.91 238 
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rec.motorcycles 0.98 0.94 0.96 
rec.sport.baseball 0.98 0.92 0.95 
rec.sport.hockey 0.92 0.99 0.95 
sci.crypt 0.91 0.97 0.93 
sci.electronics 0.87 0.89 0.88 

sci med 0.94 0.95 0.95 

sci.space 0.91 0.96 0.93 
soc.religicn.christian 0.87 0.94 0.90 
talk.politics.guns 0.89 0.96 0.93 
talk.politics.mideast 0.95 0.98 0.97 
talk.politics.misc 0.84 0.90 0.87 
talk.religion.misc 0.91 0.53 0.67 
avg / total 0.88 0.86 0.85 


precision recall fl- score 


Ë BBRERNRERBBBENBUBRERBB E Ë ERBBBHNREEBBHNES 


alt.atheism 0.86 0.81 0.83 
cam.grarhics 0.85 0.81 0.83 
Camp.os .ms- windows misc 0.84 0.87 0.86 
cam. sys. ibm.pc.hardware 0.78 0.88 0.83 
camp. sys mac. hardware 0.92 0.90 0.91 
cam.windows.x 0.95 0.88 0.91 
misc.forsale 0.90 0.80 0.85 
rec.autos 0.89 0.92 0.90 
rec.mtorcycles 0.98 0.94 0.96 
rec.sport.baseball 0.97 0.93 0.95 
rec.sport.hockey 0.88 0.99 0.93 
sci.crypt 0.85 0.98 0.91 x 
sci electronics 0.93 0.86 0.89 
sci .med 0.96 0.93 0.95 : 
sci.space 0.90 0.97 0.93 : 
soc.religion.christian 0.70 0.96 0.81 : 
talk.politics.guns 0.84 0.98 0.90 : 
talk.politics.mideast 0.92 0.99 0.95 : 
talk.politics.misc 0.97 0.74 0.84 : 
talk.religion.misc 0.96 0.29 0.45 : 
avg / total 0.89 0.88 0.88 _ j 
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代码 58 的 输出 依旧 证 明 TfidfVectorizer 的 特征 抽取 和 量化 方法 更 加 具备 优势 ; 同 
时 ,通过 与 代码 56 和 代码 57 的 性 能 比较 ,我 们 发 现 : 对 停 用 词 进 行 过 滤 的 文本 特征 抽取 
方法 ,平均 要 比 不 过 滤 停 用 词 的 模型 综合 性 能 高 出 3%% 一 4% 。 


3.1.1.2 特征 筛选 


读者 在 实践 了 本 书 的 一 些 数 据 样 例 之 后 ,一定 对 如 何 有 效 地 利用 数据 特征 有 自己 的 
心得 体会 。 总 体 来 讲 , 良 好 的 数据 特征 组 合 不 需 太 多 , 便 可 以 使 得 模型 的 性 能 表现 突出 。 
比如 ,我 们 在 第 1 章 的 “ 良 / 恶 性 乳腺 癌 肿 瘤 预 测 ? 问 题 中 ,仅仅 使 用 两 个 描述 肿瘤 形态 的 
特征 便 可 以 取得 很 高 的 识别 率 。 宛 余 的 特征 虽然 不 会 影响 到 模型 的 性 能 ,不 过 却 使 得 
CPU 的 计算 做 了 无 用 功 。 比 如 , 主 成 分 分 析 主 要 用 于 去 除 多 余 的 那些 线性 相关 的 特征 组 
合 ,原因 在 于 这 些 元 余 的 特征 组 合并 不 会 对 模型 训练 有 更 多 贡献 。 而 不 良 的 特征 自然 会 
降低 模型 的 精度 。 

特征 筛选 与 PCA 这 类 通过 选择 主 成 分 对 特征 进行 重建 的 方法 略 有 区 别 : 对 于 PCA 
而 言 ,我 们 经 常 无 法 解释 重建 之 后 的 特征 ; fh 而 更 加 
侧重 于 寻找 那些 对 模型 的 性 能 提升 较 大 的 少量 特征 。 

这 里 我 们 在 代码 59 中 继续 沿用 Titanic 数据 集 , 这 次 试图 通过 特征 筛选 来 寻找 最 佳 
的 特征 组 合 , 并 且 达 到 提高 预测 准确 性 的 目标 。 


| 代码 59. 使 用 Titanic 数据 集 , 通 过 特征 筛选 的 方法 一 步 步 提 升 决策 树 的 预测 性 能 


>>> 4 RA pandas 并 且 更 名 为 pa, 

>>> import pandas as pd 

>>># 从 互联 网 读 取 titanic HE. 

>>> titanic=pd.read csv ('http: //biostat .mc. vanderbilt .edu/wiki/pub/Main/DataSets/titanic.txt') 


>>># 分 离 数据 特征 与 预测 目标 。 
>>> y-titanic['survived'] 


>>> X= titanic.drop(['row.names', 'name', 'survived'], axis=1) 


>>>+ 对 对 缺失 数据 进行 填充 。 
»»»X['age'].fillna(X['age'].mean(), inplace- Tne) 
>>> X.fillna ('UNKNOWN', inplace- True) 


>>> 4 分割 数据 ,依然 采样 25% 用 于 测试 。 
>>> fram sklearn.cross validation import train test split 
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>>>X train, X test, y train, y test=train test split(X, y, test size= 0.25, randm state- 33) 


>>># 类 别 型 特征 向 量化 。 

>>> fram sklearn.feature extraction import DictVectorizer 

>>> vec- DictVectorizer () 

>>>X train-vec.fit transfomm(X train.to dict (orient- 'necord')) 
>>>X test-vec.transfom(X test.to dict (orient- 'record')) 


>>># 输 出 处 理 后 特征 向 量 的 维度 。 
>>> print len(vec.feature names ) 
474 


>>># 使 用 决策 树 模型 依靠 所 有 特征 进行 预测 ,并 作 性 能 评估 。 
>>> from sklearn.tree import DecisionTreeClassifier 

>>> dt= DecisionTreeClassifier (criterion= 'entropy') 

>>> dt.fit (X train, y train) 

>>> dt.score X test, y test) 

0.81762917933130697 


>>># 从 sadeam 导 入 特征 筛选 器 。 

>>> frm sklearn import feature selection 

>>> + HEAT 20% 的 特征 ,使 用 相同 配置 的 决策 树 模 型 进行 预测 ,并 且 评 估 性 能 。 
>>> fs= feature selection.SelectPercentile (feature selection.chi2, percentile- 20) 
>>>X train fs-fs.fit transform(X train, y train) 

>>>dt.fit (X train fs, y train) 

>>>X test fs-fs.transfomm(X test) 

>>> dt.score X test fs, y test) 

0.82370820668693012 


>>># 通 过 交叉 验证 (下 一 节 将 详细 介绍 ) 的 方法 ,按照 固定 间隔 的 百分比 筛选 特征 ,并 作 图 展示 : 
性 能 随 特 征 筛选 比例 的 变化 。 | 
>>> fram sklearn.cross validation import cross val score 
>>> import numpy as np 
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>>> percentiles= range(1, 100, 2) 
>>> results= [] 


>>> for i in percentiles: 

>>> fs- feature selection.SelectPeroentile (feature selection.chi2, percentile- i) 
>>> X train fs-fs.fit transform(X train, y train) 

>>> scores= cross val score (dt, X train fs, y train, cv- 5) 

>>> results- np.append (results, scores.mean () ) 

>>> print results 


>>># 找 到 提现 最 佳 性 能 的 特征 筛选 的 百分比 。 
>>> opt= np.where (results == results.max () ) [0] 


>>> print 'Optimal number of features % d' $ percentiles [opt] 


[ 0.85063904 0.85673057 0.87501546 0.88622964 0.86692435 0.86693465 
0.86690373 0.87100598 0.87097506 0.86996496 0.87200577 0.86995465 
0.86997526  0.86183261 0.86690373 0.856792 — 0.86386312 0.8648423 
0.86283241 0.86286333 0.86384251 0.86384251 0.86895485 0.86486353 
0.86386312 0.86895485 0.86995465 0.87199546 0.86489384  0.86892393 
0.87302618  0.86589363 0.87504638 0.86791383 0.86993403 0.86589363 
0.86590394 0.87404659 0.86487322 0.86895485 0.87301587 0.86285302 
0.8608122  0.86286333 0.86590394 0.86589363 0.86287363 0.8597918 
0.8608122 0.86284271] 

Optimal nurber of features 7 


>>> import pylab as pl 

>>> pl.plot (percentiles, results) 

>>> pl.xlabel ("percentiles of features!) 
>>> pl.ylabel ("accuracy") 

>>> pl.show() 


>>># 使 用 最 佳 筛 选 后 的 特征 ,利用 相同 配置 的 模型 在 测试 集 上 进行 性 能 评估 。 
>>> from skleam import feature selection 
>>> fs= feature selection.SelectPercentile (feature selection.chi2, percentile- 7) 


人 
>>>X train fs-fs.fit transform(X train, y train) 
>>> dt.fit(K train fs, y train) 


>>>X test fs- fs.transfomm(X test) 
>>> dt.score X test fs, y test) 


0.8571428571428571 | 


通过 代码 59 中 的 几 个 关键 输出 ,我 们 可 以 总 结 如 下 : 

(1) 经 过 初步 的 特征 处 理 后 ,最 终 的 训练 与 测试 数据 均 有 474 个 维度 的 特征 ; 

(2) 如 果 直 接 使 用 全 部 474 个 维度 的 特征 用 于 训练 决策 树 模 型 进行 分 类 预测 ,那么 
模型 在 测试 集 上 的 准确 性 约 为 81.76%; 

(3) WFR iii He BT 20% 维 度 的 特征 ,在 相同 的 模型 配置 下 进行 预测 ,那么 在 测试 集 上 表 
现 的 准确 性 约 为 82. 37%; 

(4) 如 果 我 们 按照 固定 的 间隔 采用 不 同 百 分 比 的 特征 进行 训练 与 测试 ,那么 如 图 3-1 
所 示 ,通过 3. 1. 3. 2 交叉 验证 得 出 的 准确 性 有 着 很 大 的 波动 ,并 且 最 好 的 模型 性 能 表现 在 
选取 前 7% 维 度 的 特征 的 时 候 ; 

(5) 如 果 使 用 前 7% 维 度 的 特征 ,那么 最 终 决策 树 模 型 可 以 在 该 分 类 预测 任务 的 测试 
集 上 表现 出 85. 71% 的 准确 性 , 比 起 最 初 使 用 全 部 特征 的 模型 性 能 高 出 接近 4 个 百分点 。 
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图 3-1 代码 59 中 ,模型 交叉 验证 的 准确 性 随 特 征 筛选 百分比 的 变化 曲线 


. 
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3.1.2 模型 正则 化 


本 书 一 直 在 向 读 者 们 申明 一 个 重要 观点 : 任何 机 妖 学 习 模 型 在 训练 集 上 的 性 能 表 
现 ,都 不 能 作为 其 对 未 知 测试 数据 预测 能 力 的 评估 。 并 且 ,我 们 从 最 开始 1. 1 Boss Sd Se 
述 中 就 器 大 家 强调 过 要 重视 模型 的 泛 化 力 (Generalization), 只 是 没有 过 多 地 展开 讨论 。 
这 一 节 ,我 们 将 详细 解释 什么 是 模型 的 泛 化 力 , 以 及 如 何 保证 模型 的 泛 化 力 。3. 1.2.1 大 
拟 合 与 过 拟 合 将 首先 曾 述 模型 复杂 度 与 沁 化 力 的 关系 ; 紧 接 着 ,3.1.2.2Li 范 数 正则 化 与 
3.1. 2. 3 Le 范 数 正则 化 将 分 别 介绍 如 何 使 用 这 两 种 正则 化 (Regularization) 的 方式 来 加 
强 模 型 的 泛 化 力 , 避 免 模 型 参数 过 拟 合 (Overfitting) 。 


3.1.2.1 欠 拟 合 与 过 拟 合 
所 谓 拟 合 , 是 指 机 器 学 习 模 型 在 训练 的 过 程 中 ,通过 更 新 参数 ,使 得 模型 不 断 契 合 可 
观测 数据 (训练 集 ) 的 过 程 。 本 节 ,我 们 将 使 用 一 个 “比萨 饼 价 格 预测 ?的 例子 来 说 明 。 如 
K 3-1 Bros ,美国 一 家 比萨 饼 店 出 售 不 同 尺 十 的 比萨 ,其 中 每 种 直径 (Diameter) 都 对 应 一 
个 报价 。 我 们 所 要 做 的 ,就 是 设计 一 个 学 习 模型 ,可 以 有 效 地 根据 表 3-2 中 比萨 的 直径 特 
征 来 预测 售 价 。 
表 3-1 美国 某 比萨 饼 店 已 知 训 练 数据 


Training Imstance PriceCin U. S. dollars) 
| C 
° C | NE 
表 3-2 美国 某 比 萨 饼 店 未 知 测试 数据 
Testing Instance PriceCin U. S. dollars) 
i : 
| 
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目前 我 们 所 知 ,共有 5 组 训练 数据 、4 组 测试 数据 ,并且 其 中 测试 数据 的 比萨 报价 未 
知 。 根 据 我 们 的 经 验 , 如 果 只 考虑 比萨 的 尺寸 与 售 价 的 关系 ,那么 使 用 线性 回归 模型 比较 
直观 ,如 代码 60 所 示 。 


| 代码 60: 使 用 线性 回归 模型 在 比萨 训练 样本 上 进行 拟 合 


>>># 输 入 训练 样本 的 特征 以 及 目标 值 ,分 别 存 储 在 变量 X train 与 y train 之 中 。 
>>>X train- [[6], [8], [10], [14], [18]] 
>>>y train- [[7], [9], [13], [17.5], [181] 


»»» #M skleam.linear model 中 导入 LinearRegressicn, 
>>> fram sklearn.linear model import LinearRegression 
>>># 使 用 默认 配置 初始 化 线性 回归 模型 。 

>>> regressor= LinearRegressicn () 

>>># 直 接 以 比萨 的 直径 作为 特征 训练 模型 。 

>>> regressor.fit (X train, y train) 


>>># 导 人 nnpy 并 且 重 命名 为 np. 

>>> import numpy as np 

>>> +E xh EM 0 至 25 均 匀 采 样 100 个 数据 点 。 
>>> XX-np.linspace(0, 26, 100) 

>>> xx= xx. reshape (xx.shape [0], 1) 

>>># 以 上 述 100 个 数据 点 作为 基准 ,预测 回归 直线 。 
>>> yy= regressor.predict (xx) 


>>># 对 回归 预测 到 的 直线 进行 作 图 。 
>>> import matplotlib.pyplot as plt 
>>>plt.scatter X train, y train) 


»»»pltl,-plt.plot (xx, yy, label= "Degree- 1") 


2»»pit.axis([0, 25, 0, 25]) 

>>> plt.xlabel ("Diameter of Pizza!) 
>>> plt.ylabel ("Price of Pizza") 
>>> plt. legend (handles= [pltl]) 
>>> plt.show() 


>>># 输 出 线性 回归 模型 在 训练 样本 上 的 R- squared fff , 


. 
L1. -nn — 


>>> print 'The R- squared value of Linear Regressor performing on the training data is', regressor. | 
score X train, y train) : 
The R- squared value of Linear Regressor performing cn the training data is 0.910001596424 : 


根据 代码 60 所 输出 的 图 3-2, 以 及 当前 模型 在 训练 集 上 的 表现 (R-squared 值 为 
0. 9100) ,我 们 进一步 猜测 ,也 许 比 萨 饼 的 面积 与 售 价 的 线性 关系 2 更 加 明显 。 因 此 ,我们 
试图 将 原 特 征 升 高 一 个 维度 ,使 用 (2 次 ) 多 项 式 回归 (Polynominal Regression) 对 训练 样 
本 进行 拟 合 ,继续 如 代码 61 所 示 。 


25 


20 


Price of Pizza 


0 5 10 15 20 25 
Diameter of Pizza 


图 3-2 线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情 况 ( 见 彩 图 ) 


| 代码 61: 使 用 2 次 多 项 式 回归 模型 在 比萨 训练 样本 上 进行 拟 合 


>>>#M skleamn.preproessing 中 导 人 多 项 式 特征 产生 器 
>>> fram sklearn.preprocessing import Polynamialkeatures 
>>> # fi FA PolynaminalFeatures (degree- 2) 映 射出 2 次 多 项 式 特征 ,存储 在 变量 X train poly 中 。 
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Q 拓展 小 贴 士 23: 尽管 我 们 在 代码 61 中 依然 使 用 线性 回归 器 作为 模型 基础 ,但 是 由 于 我 们 将 特征 上 升 到 多 项 式 层 面 , 因 此 通常 我 


们 称 这 类 模型 为 多 项 式 回 归 (Polynomial Regression ) 。 


>>> poly2= PolynamialFeatures (degree- 2) 
>>>X train poly2-poly2.fit transform(X train) 


>>> # 以 线性 回归 器 为 基础 ,初始 化 回归 模型 。 尽 管 特征 的 维度 有 提升 ,但 是 模型 基础 仍然 是 线 : 
性 模型 。 : 
>>> regressor poly2- LinearRegression () 


>>># 对 2 次 多 项 式 回归 模型 进行 训练 。 
>>> regressor poly2.fit(X train poly2, y train) 


>>> + 从 新 映射 绘图 用 x 轴 采样 数据 。 
>>> XX poly2=poly2.transform (xx) 


>>> +EH 2 次 多 项 式 回归 模型 对 应 x 轴 采样 数据 进行 回归 预测 。 
>>> yy poly2- regressor poly2.predict (xx poly2) 


>>># 分 别 对 训练 数据 点 .线性 回归 直线 .2 次 多 项 式 回 归 曲 线 进 行 作 图 。 
>>>plt.scatter X train, y train) 


>>>pltl,=plt.plot (xx, yy, label- 'Degree- 1') 
>>> plt2,=plt.plot (xx, yy poly2, label= 'Degree- 2') 


>>>plt.axis([0, 25, 0, 251) 

>>> plt.xlabel ("Diameter of Pizza') 
>>> plt.ylabel ("Price of Pizza") 

>>> plt.legend (handles= [pltl, plt2]) 
>>> plt.show() 


>>># 输 出 2 次 多 项 式 回归 模型 在 训练 样本 上 的 R- squared fH , | 
>>> print "The R- squared value of Polynaminal Regressor (Degree- 2) performing cn the training data is: 
', regressor poly2.score(X train poly2, y train) 


The R- squared value of Folynaminal Regressor (Degree= 2) performing cn the training data is 
0.98164216396 


果然 ,在 升 高 了 特征 维度 之 后 ,2 次 多 项 式 回 归 模 型 在 训练 样本 上 的 性 能 表现 更 加 突 
出 ,R-squared 值 从 0.910 上 升 到 0. 982。 并 且 根 据 代码 61 所 输出 的 图 3-3 所 示 ,2 次 多 
项 式 回归 曲线 (绿色 ) 比 起 线性 回归 直线 ( 蓝 色 ) ,对 训练 数据 的 拟 合 程度 也 增加 了 许多 。 
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图 3-3 2 次 多 项 式 回归 与 线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情 况 比较 ( 见 彩 图 ) 
由 此 ,我 们 更 加 大 胆 地 进一步 升 高 特征 维度 ,如 代码 62 所 示 , 增 加 到 4 次 多 项 式 。 


| 代码 62, 使 用 4 次 多 项 式 回归 模型 在 比萨 训练 样本 上 进行 拟 合 


>>># 从 skleam.preprooessing 导 人 多 项 式 特征 生成 器 。 
>>> fram skleam .preprocessing import PolynamialFeatures 
>>># 初 始 化 4 次 多 项 式 特征 生成 器 。 

>>> poly4= PolynamialFeatures (degree- 4) 

>>>X train poly4-poly4.fit transform train) 


>>># 使 用 默认 配置 初始 化 4 次 多 项 式 回归 器 。 


>>> regressor poly4- LinearRegression () 
>>># 对 4 次 多 项 式 回 归 模 型 进行 训练 。 
>>> regressor poly4.fit X train poly4, y train) 


>>># 从 新 映射 绘图 用 x 轴 采样 数据 。 

>>> xx poly4 poly4.transform(xx) 

>>> HEH 4 次 多 项 式 回 归 模 型 对 应 x 轴 采样 数据 进行 回归 预测 。 
>>> yy poly4- regressor poly4.predict (xx poly4) 
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>>># 分 别 对 训练 数据 点 、 线 性 回归 直线 .2 次 多 项 式 以 及 4 次 多 项 式 回 归 曲 线 进行 作 图 。 
>>>Plt.scatter X train, y train) 

»»»pltl,-plt.plot(xx, yy, label- 'Degree- 1') 

>>> plt2,=plt.plot (xx, yy poly2, label= 'Degree- 2") 


>>> plt4,=plt.plot (xx, yy poly4, label= 'Degree- 4!) 
>>>plt.axis([0, 25, 0, 25]) 

>>> plt.xlabel ("Diameter of Pizza') 

>>> plt.ylabel ("Price of Pizza") 

>>> plt.legend (handles= [pltl, plt2, plt4]) 

>>> plt.show() 


>>> print "The R- squared value of Polynaminal Regressor (Degree- 4) performing on the training data is 


',regressor poly4.score(X train poly4, y train) 
The R- squared value of Polynaminal Regressor (Degree- 4) performing on the training data is 1.0 


如 图 3-4 Bros. 4 次 多 项 式 曲 线 几 乎 完全 拟 合 了 所 有 的 训练 数据 点 ,对 应 的 


R-squared 值 也 为 1.0。 但 是 ,如 果 这 时 觉得 已 经 找到 了 完美 的 模型 ,那么 显然 是 高 兴 过 
AY. 


a. 
-一 Degree-1 
— Degree=2 
-一 Degree=4 


Price of Pizza 


0 5 10 15 20 25 


Diameter of Pizza 


图 3-4 4 次 多 项 式 回 归 与 其 他 模型 在 比萨 训练 样本 上 的 拟 合 情 况 比较 


K 3-3 揭示 了 测试 比萨 的 真实 价格 。 
表 3-3 美国 某 比萨 饼 店 真实 测试 数据 


Testing Instance Price(in U. S. dollars) 
S 9 C s 


| 代码 63: 评估 3 种 回归 模型 在 测试 数据 集 上 的 性 能 表现 


>>># 准 备 测 试 数据 。 
>>>X test- [[6], [8], [11], [16]] 
>>>y test= [[8], [12], [15], [18]] 


>>># 使 用 测试 数据 对 线性 回归 模型 的 性 能 进行 评估 。 
>>> regressor.score (X test, y test) 
0.80972683246686095 


>>># 使 用 测试 数据 对 2 次 多 项 式 回归 模型 的 性 能 进行 评估 。 
>>>X test poly2=poly2.transform(X test) 

>>> regressor poly2.score X test poly2, y test) 
0.86754436563450543 


>>># 使 用 测试 数据 对 4 次 多 项 式 回归 模型 的 性 能 进行 评估 。 

>>>X test poly4- poly4.transform(X test) 

>>> regressor poly4.score(X test poly4, y test) 

0.8095880795781909 _ 

如 果 我 们 使 用 代码 63 评估 上 述 3 种 模型 在 测试 集 上 的 表现 ,并 将 输出 对 比 之 前 在 训 
练 数据 上 的 拟 合 情况 , 制 成 表 3-4; 最 终 的 结果 却 令 人 咋 盏 : 当 模 型 复杂 度 很 低 (Degree 一 
1) 时 ,模型 不 仅 没有 对 训练 集 上 的 数据 有 展 好 的 拟 合 状态 ,而 且 在 测试 集 上 也 表现 平平 ， 
这 种 情况 叫做 欠 拟 合 (Underfitting) ;但 是 , 当 我 们 一 味 追 求 很 高 的 模型 复杂 度 (Degree 一 
4) ,尽管 模型 几乎 完全 拟 合 了 所 有 的 训练 数据 ,但 如 图 3-4 所 示 , 模 型 也 变 得 非常 波动 , 几 
平 丧 失 了 对 未 知 数据 的 预测 能 力 ,这 种 情况 叫做 过 拟 合 (Overfitting)。 这 两 种 情况 都 是 
缺乏 模型 泛 化 力 的 表现 。 


第 3 章 ” 进 阶 篇 


: 117 : 


: 118 : 


Pyhom 机 器 学 习 及 实践 


表 3-4 美国 某 比萨 饼 店 真实 测试 数据 


FF HE E Ht zt ux 测试 集 R-squared ff 


由 此 可 见 , 虽 然 我 们 不 断 追 求 更 好 的 模型 泛 化 力 , 但 是 因为 未 知 数 据 无 法 预测 ,所 以 
又 期 望 模型 可 以 充分 利用 训练 数据 ,避免 从 拟 合 。 这 就 要 求 在 增加 模型 复杂 度 、 提 高 在 可 
观测 数据 上 的 性 能 表现 的 同时 ,又 需要 兼顾 模型 的 泛 化 力 , 防 止 发 生 过 拟 合 的 情况 。 为 了 
平衡 这 两 难 的 选择 ,我 们 通常 采用 两 种 模型 正则 化 的 方法 ,分 别 是 3. 1. 2. 2 L, 范 数 正 则 
化 与 3. 1. 2. 3 L, 范 数 正则 化 。 


3.1.2.2 山 范 数 正 则 化 


正则 化 (Regularization) 的 目的 在 于 提高 模型 在 未 知 测试 数据 上 的 泛 化 力 , 避 人 免 参 数 
过 拟 合 。 由 上 一 节 的 “比萨 饼 价 格 预测 ?的 例子 可 以 看 出 ,2 次 多 项 式 回 归 是 相对 较 好 的 
模型 假设 。 之 所 以 出 现 如 4 次 多 项 式 那样 的 过 拟 合 情 景 ,是 由 于 4 次 方 项 对 应 的 系数 过 
大 ,或 者 不 为 0 所 导致 。 

因此 ,正则 化 的 篆 见 方法 都 是 在 原 模型 优化 目标 的 基础 上 ,增加 对 参数 的 惩罚 
(Penalty) 项 。 以 我 们 在 2. 1. 2. 1 线性 回归 器 一 节 中 介绍 过 的 最 小 二 乘 优 化 目标 为 例 ( 参 
考 式 (13)) ,如果 加 入 对 模型 的 工 , 范 数 正则 化 ,那么 新 的 线性 回归 目标 如 式 (200 所 示 。 


argmin L(w,b)= argmin 9; (f(w.,x,b)— y*)? +A ll wll, (20) 
也 就 是 说 ,在 原 优化 目标 的 基础 上 ,增加 了 参数 向 量 的 工 范 数 。 如 此 一 来 ,在 新 目标 优化 
的 过 程 中 ,也 同时 需要 考量 Li 惩罚 项 的 影响 。 为 了 使 目标 最 小 化 ,这 种 正则 化 方法 的 结 
会 让 参数 向 量 中 的 许多 元 素 趋 向 于 0, 使 得 大 部 分 特征 失去 对 优化 目标 的 贡献 。 而 这 
种 让 有 效 特 征 变 得 稀疏 (Sparse) 的 L, 正则 化 模型 ,通常 被 称 为 Lasso. 
接 下 来 ,代码 64 让 我 们 在 上 一 节 例 子 的 基础 上 ,继续 使 用 4 次 多 项 式 特征 ,但 是 换 成 
Lasso 模型 检验 L, 范 数 正 则 化 后 的 性 能 和 参数 。 
[ kE 64: Lasso 模型 在 4 次 多 项 式 特 征 上 的 拟 合 表现 
>>># 从 skleam.linear model 中 导 和 人 Lasso, 
>>> frm sklearn.linear model import Lasso 
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>>># 从 使 用 默认 配置 初始 化 Tasso. 

>>> lasso poly4- Lasso () 

»»»14 JA f Hj Iasso 对 4 次 多 项 式 特 征 进行 拟 合 。 
>>> lasso poly4.fit(X train poly4, y train) 


>>> # XF Iasso 模 型 在 测试 样本 上 的 回归 性 能 进行 评估 。 
>>> print lasso poly4.score(X test poly4, y test) 
0.83889268736 


>>> 5H Iasso 模 型 的 参数 列表 。 
>>> print lasso poly4.coef - 


[ 0.00000000e+ 00 — 0.00000000e* 001.17900534e- 01 5.42646770e- 05 
- 2.23027128e- 04] 


>>> + 回顾 普 通 4 次 多 项 式 回 归 模型 过 拟 合 之 后 的 性 能 。 
>>> print regressor poly4.score X test poly4, y test) 


0.809588079578 


>>># 回 顾 普 通 4 次 多 项 式 回归 模型 的 参数 列表 。 
>>> print. regressor poly4.coef 


[[ 0.00000000e+ 00 -2.51739583e+ OL  3.68906250e* 00 - 2.12760417e- 01 | 


CD 相 比 于 普通 4 次 多 项 式 回 归 模 型 在 测试 集 上 的 表现 ,默认 配置 的 Lasso 模型 性 
能 提高 了 大 约 376; 
(2) 相 较 之 下 ,Lasso 模型 拟 合 后 的 参数 列表 中 ,4 次 与 3 次 特征 的 参数 均 为 0.0, 使 


18 IE E JHI F E ç 
3.1.2.3 上; 范 数 正则 化 


5j Li 范 数 正 则 化 略 有 不 同 的 是 , L, 范 数 正则 化 则 在 原 优 化 目标 的 基础 上 ,增加 了 参 
BU) AY L, 范 数 的 惩罚 项 ,如 公式 (21) 所 示 。 为 了 使 新 优化 目标 最 小 化 ,这 种 正则 化 方 
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法 的 结果 会 让 参数 回 量 中 的 大 部 分 元 素 都 变 得 很 小 ,压制 了 参数 之 间 的 差异 性 。 而 这 种 
压制 参数 之 间 差 异性 的 L, 正则 化 模型 ,通常 被 称 为 Ridge. 


k=1 


argmin L (w.b)= argmin 2; (f(w.k.b)— yt)? +A | | w | E 


接 下 来 ,代码 65 让 我 们 在 3.1. 2. 1 欠 拟 合 与 过 拟 合 一 节 例 子 的 基础 上 ,继续 使 用 4 
次 多 项 式 特 征 , 但 是 换 成 Ridge 模型 检验 L, 范 数 正则 化 后 的 性 能 和 参数 ，。 


| 代码 65: Ridge 模型 在 4 次 多 项 式 特征 上 的 拟 合 表现 


>>># 输 出 普通 4 次 多 项 式 回归 模型 的 参数 列表 。 

>>> print regressor poly4.coef ` 

[[ 0.00000000e+ 00 -2.51739583e- 01 3.68906250e- 00 -2.12760417e- 01 
4.29687500e- 03]] 


>>># 输 出 上 述 这 些 参数 的 平方 和 ,验证 参数 之 间 的 巨大 差异 。 
>>> print np.sum(regressor poly4.coef * * 2) 
647.382645682 


>>> + Á sklearn.linear model 导 人 Ridge, 
>>> from sklearn.linear model import Ridge 
>>># 使 用 默认 配置 初始 化 Riede. 

>>> ridge poly4- Ridge () 


>>> +EH Ridge 模 型 对 4 次 多 项 式 特征 进行 拟 合 。 
>>> ridge poly4.fit(X train poly4, y train) 


>>># 输 出 Ridge 模 型 在 测试 样本 上 的 回归 性 能 . 
>>> print ridge poly4.score X test poly4, y test) 


0.837420175937 

>>># 输 出 Riqge 模 型 的 参数 列表 ,观察 参数 差异 。 

>>>print ridge poly4.coef 

[[ 0. —0.00492536 0.12439632 -0.00046471 - 0.00021205]] 


>>># 计 算 Ridoe 模 型 拟 合 后 参数 的 平方 和 。 
>>> print np.sum(ridge Poly4.coef * * 2) 
0.0154989652036 


通过 我 们 对 代码 65 一 系列 输出 的 观察 ,可 以 验证 Ridge 模型 的 


一 切 特点 : 


(21) 
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(1) 相 比 于 普通 4 次 多 项 式 回 归 模 型 在 测试 集 上 的 表现 ,默认 配置 的 Ridge 模型 性 
能 提高 了 近 3% ; 

(2) 与 普通 4 次 多 项 式 回 归 模 型 不 同 的 是 ,Ridge 模型 拟 合 后 的 参数 之 间 差 异 非 
常 小 。 

这 里 需要 额外 指出 的 是 ,不 论 是 公式 (20) 还 是 公式 (21) 中 的 惩罚 项 ,都 会 有 一 个 因子 
4 进行 调节 。 尽 管 和 不 属于 需要 拟 合 的 参数 , 却 在 模型 优化 中 扮演 非常 重要 的 角色 。 有 具体 
XY A 的 解读 ,我 们 会 留待 后 续 的 章节 。 


3.1.3 模型 检验 


在 前 面 的 草 节 中 ,时 不 时 地 提 和 到 模型 检验 或 者 交叉 验证 等 词汇 ,特别 是 在 对 不 同 模型 
的 配置 .不同 的 特征 组 合 ,在 相同 的 数据 和 任务 下 进行 评价 的 时 候 。 究 其 原因 ,相信 很 多 
读者 通过 阅读 前 面 的 章节 ,已 经 感受 到 仅仅 使 用 默认 配置 的 模型 与 不 经 处 理 的 数据 特征 ， 
在 大 多 数 任务 下 是 无 法 得 到 最 佳 性 能 表现 的 。 因 此 ,在 最 终 交 由 测试 集 进行 性 能 评估 之 
前 ,我 们 自然 希望 可 以 尽 可 能 利用 手头 现 有 的 数据 对 模型 进行 调 优 , 甚 至 可 以 粗略 地 估计 
测试 结果 。 

在 这 里 需要 强调 的 是 : 尽管 本 书 在 许多 章节 中 所 使 用 的 测试 数据 是 由 我 们 从 原始 数 
据 中 采样 而 来 ,并 且 多 数 知晓 测试 的 正确 结果 ;但 是 这 仅仅 是 为 了 学 习 和 模拟 的 需要 。 一 
些 初学 者 因此 经 常 拿 着 测试 集 的 正确 结果 反复 调 优 模 型 与 特征 ,从 而 可 以 发 现在 测试 集 
上 表现 最 佳 的 模型 配置 和 特征 组 合 。 这 是 极其 错误 的 行为 ! 

事实 上 , 当 读 者 翻阅 至 第 4 草 , 并 且 真 正在 苑 赛 平台 上 实践 机 器 学 习 任 务 时 就 会 发 
现 , 您 只 可 以 提交 预测 结果 ,并 不 可 能 知晓 正确 答案 。 如 果 更 加 严格 一 些 , 只 给 大 家 一 次 
提交 预测 结果 的 机 会 ,那么 我 们 更 不 可 能 期 待 信 助 测试 集 “ 动 手脚 "?。 这 就 要 求 我 们 充分 
地 使 用 现 有 数据 ,并 且 通 常 的 做 法 依然 是 对 现 有 数据 进行 采样 分 割 : 一 部 分 用 于 模型 参 
数 训练 ,叫做 训练 集 (Training set) ; 另 一 部 分 数据 集合 用 于 调 优 模型 配置 和 特征 选择 ,并 
且 对 未 知 的 测试 性 能 做 出 估计 ,叫做 开发 集 (Development set) 或 者 验证 集 (Validation 


又 验证 。 
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D 拓展 小 贴 士 24: 如 果 读 者 在 量化 投资 公司 从 事 股 票 预 测 研究 ,你 所 能 获取 的 永远 是 过 去 股票 价格 的 走势 ,未 来 的 股票 价格 永远 是 
所 设计 模型 的 测试 ,并 且 机 会 只 有 一 次 。 虽 然 可 以 借 由 过 去 的 股票 价格 对 模型 进行 调 优 ,但 是 这 不 代表 自 认 为 通过 验证 的 优质 模型 一 定 
可 以 在 未 来 的 股票 市 场 大 赚 一 笔 。 要 对 未 来 抱 有 一 颗 “ 虔 诚 ” 的 心 , 因 为 不 会 知道 最 适合 测试 的 模型 配置 和 特征 组 合 ;你 所 能 做 的 ,只 能 是 


相信 当下 所 验证 的 ,并 把 剩 下 的 一 切 交 给 时 运 。 
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3.1.3.1 留 一 验证 


fa 一 验证 (Leave-one-out cross validation) 最 为 简单 ,就 是 从 任务 提供 的 数据 中 ,随机 
采样 一 定 比 例 作 为 训练 集 , 剩 下 的 “ 留 做 ?验证 。 通 常 ,我 们 取 这 个 比例 为 7:3, 即 70% 作 
为 训练 集 , 剩 下 的 30% 用 做 模型 验证 。 不 过 ,通过 这 一 验证 方法 优化 的 模型 性 能 也 不 稳 
定 , 原 因 在 于 对 验证 集合 随机 采样 的 不 确定 性 。 因 此 ,这 一 方法 被 使 用 在 计算 能 力 较 弱 ， 
而 相对 数据 规模 较 大 的 机 融 学 习 发 展 的 早期 。 当 我 们 拥有 足够 的 计算 资源 之 后 ,这 一 验 
证 方法 进化 成 为 更 加 高 级 的 版 本 : 交叉 验证 。 


3.1.3.2 SEXE 


交 义 验证 (K-fold cross-validation) 可 以 理解 为 从 事 了 多 次 留 一 验证 的 过 程 。 只 是 需 
要 强调 的 是 ,每 次 检验 所 使 用 的 验证 集 之 间 是 互 斥 的 ,并 且 要 保证 每 一 条 可 用 数据 都 被 模 
型 验证 过 。 因 此 ,就 以 5 折 交 义 验 证 (Five-fold cross-validation ) 为 例 , 如 图 3-5 Prax. 


Total Number of Dataset ———*- 
Experiment] 


Experiment? [ J [| | 
[ | Training 
Experiment3 [. | | | 
[ESSI validation 
Experiment4 [ | T JR — 


Experiments [ ] T I BEEN 
图 3-5 5 折 交 叉 验证 过 程 示例 ,图 片 来 自 于 互联 网 中 


全 部 可 用 数据 被 随机 分 割 为 平均 数量 的 5 组 ,每 次 迭代 都 选取 其 中 的 1 组 数据 作为 
验证 集 , 其 他 4 组 作为 训练 集 。 

交叉 验证 的 好 处 在 于 ,可 以 保证 所 有 数据 都 有 被 训练 和 验证 的 机 会 ,也 尽 最 大 可 能 让 
优化 的 模型 性 能 表现 得 更 加 可 信 。 


3.1.4 超 参 数 搜索 


前 面 所 提 到 的 模型 配置 ,我 们 一 般 统称 为 模型 的 超 参 数 (Hyperparameters) ,如 K yr 
邻 算法 中 的 K 值 支 持 向 量 机 中 不 同 的 核 函数 (Kernal) 等 。 多 数 情况 下 , 超 参 数 的 选择 
是 无 限 的 。 因 此 在 有 限 的 时 间 内 ,除了 可 以 验证 人 工 预 设 几 种 超 参 数组 合 以 外 ,也 可 以 通 
过 局 发 式 的 搜索 方法 对 超 参 数组 合 进行 调 优 。 我 们 称 这 种 局 发 式 的 超 参 数 搜索 方法 为 


(D http://stackoverflow. com/questions/31947183/how-to-implement-walk-forward-testing-in-sklearn 


3.1.4. 1 网 格 搜索 。 同 时 由 于 超 参 数 的 验证 过 程 之 间 彼 此 独立 ,因此 为 并 行 计 算 提 供 了 
可 能 ,3.1.4.2 并 行 搜索 一 节 将 回 读 者 展示 如 何在 不 损失 搜索 精度 的 前 提 下 ,充分 利用 多 
Ez hb Xil is fi o 291p TIN IR], 


3.1.4.1 网 格 搜索 


由 于 超 参 数 的 空间 是 无 尽 的 ,因此 超 参 数 的 组 合 配 置 只 能 是 “更 优 ” 解 ,没有 最 优 解 。 
通常 情况 下 ,我 们 依靠 网 格 搜索 ?2(GridSearch) 对 多 种 超 参 数组 合 的 空间 进行 暴力 搜索 。 
每 一 套 超 参 数组 合 被 代入 到 学 习 函 数 中 作为 新 的 模型 ,并且 为 了 比较 新 模型 之 间 的 性 能 , 
每 个 模型 都 会 采用 交叉 验证 的 方法 在 多 组 相同 的 训练 和 开发 数据 集 下 进行 评估 。 以 代码 
66 为 例 。 


| 代码 66: 使 用 单线 程 对 文本 分 类 的 朴素 贝 叶 斯 模型 的 超 参数 组 合 执行 网 格 搜索 


>>># 从 skleam.datasets 中 导入 20 类 新 闻 文 本 抓 取 器 。 
>>> fram sklearn.datasets import fetch 20newsgroups 
>>> 4 58A nmpy.Jf HL. 8 óh A np, 

>>> import nunpy as np 


>>># 使 用 新 闻 抓 取 器 从 互联 网 上 下 载 所 有 数据 ,并 且 存 储 在 变量 news 中 。 
>>> news= fetch 20newsgroups (subset= 'all') 


>>># 从 sklearn.cross validation } train test split 用 来 分 割 数据 。 
>>> fram sklearn.cross validation import train test split 


>>># 对 前 3000 条 新 闻 文本 进行 数据 分 割 ,25% 文 本 用 于 未 来 测试 。 
>>>X train, X test, y train, y test= train test split (news.data[:3000], 
news.target[:3000], test size- 0.25, randam state- 33) 


>>># 导 和 支持 向 量 机 (分 类 ) 模 型 , 

>>> fram sklearn.svm import SVC 

>>># 导 入 Thidfvectorizer 文本 抽取 器 。 

>>> frm sklearn.feature extraction.text import TfidfVectorizer 


D 拓展 小 贴 士 25: 虽然 作者 没有 查阅 这 一 名 称 的 来 历 ,但 是 这 的 确 是 一 种 非常 形象 的 措辞 。 如 果 人 工 处 理 所 有 可 能 的 超 参 数组 合 ， 
通常 的 办 法 便 是 根据 超 参数 的 维度 , 列 成 相应 的 网 格 。 对 于 每 个 格子 中 具体 的 超 参数 组 合 ,通过 交叉 验证 的 方式 进行 模型 性 能 的 评估 。 
最 后 通过 验证 性 能 的 比较 , 遵 选 出 最 佳 的 超 参 数 数据 组 合 。 
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>>># 导 人 Pipeline, 
>>> fram skleam.pipeline import Pipeline 


>>> HËM Pipeline? 简化 系统 搭建 流程 ,将 文本 抽取 与 分 类 器 模型 串联 起 来 。 
>>> CLE Pipeline ([ ('vect', TfidfVectorizer(stop words= 'english', analyzer- 
‘word')), ('svc', SvCQ)1) 


>>># 这 里 需要 试验 的 2 个 超 参数 的 个 数 分 别 是 4.3, suc gama 的 参数 共有 10^- 2, 100-1... . 3X : 
样 我 们 一 共有 了 2 种 的 超 参 数组 合 , 12 个 不 同 参数 下 的 模型 。 : 
>>> parameters= ('svc ganma': np.logspace(-2, 1, 4), 'svc C': m.logspace(- 1, 1, 3)} 


>>># 从 skleam.grid search 中 导 和 人 网 格 搜索 模块 Gridsearchcv。 
>>> fram sklearn.grid search import GridSearchcv 


>>># 将 12 组 参数 组 合 以 及 初始 化 的 Pipline 包 括 3 折 交 叉 验证 的 要 求全 部 告知 Gridsearchcv。 " 
大 家 务必 注意 refit True 这 样 一 个 设 定 @。 
>>> gs= GridSearchCV (clf, parameters, verbose= 2, refit- True, C= 3) 


>>>+# 执 行 单线 程 网 格 搜索 。 
>>> % time _=gs.fit@ train, y train) 
»»»gs.best params , gs.best score ` 


>>># 输 出 最 佳 模型 在 测试 集 上 的 准确 性 。 
>>> print gs.score(X test, y test) 


Fitting 3 folds for each of 12 candidates, totalling 36 fits 


[CV] sw ganme= 0.01, sve_ CO=0. ..................................... 
[CV] .*........ *....... *...... .... svc gam 0.01, SC OC-0.1- 5.3s 
[CV] svc game-0.01, suc O90.1 ..................................... 


D 拓展 小 贴 士 26: 在 读者 已 经 全 面 了 解 如 何 使 用 Scikit-learn 从 零 措 建 机 器 学 习 系 统 之 后 ,推荐 大 家 使 用 Pipeline 来 简化 代码 ,具体 
的 使 用 方式 可 以 参考 http://scikit-learn. org/stable/modules/ pipeline. html # pipeline-chaining-estimators 

© 拓展 小 贴 士 27; 在 交叉 验证 获取 最 佳 的 超 参数 过 程 中 ,如 果 设 定 refit= 二 True, 那 么 程序 将 会 以 叉 验 训 练 集 得 到 的 最 佳 超 参 数 , 重 
新 对 所 有 可 用 的 训练 集 与 开发 集 进行 ,作为 最 终 用 于 性 能 评估 的 最 佳 模型 的 参数 。 这 是 一 个 标准 的 流程 ,请 读者 参考 。 


第 3 章 “ 进 阶 篇 : 125 : 


[CV] .vsSVC_ gamee=0.0l, se C=0.1- 5.65 
[CV] seges 0.01,，sSVC_C=0.1 ..................................... 
[CV] ............................ SVC damma=0.01, sc C-0.1- '5.5s 
[V] ............................. SVC Gmm =0., Svc C-0.1- 5.6s 
[CV] ............................. SVC gaummm-0.l, svc G0.1- 5.95 
[QV] ............................. SVC game-0.1, sc O-0.1- 5.6s 
[CV] Svc gaume-1.0, SVC OS0.1 ...................................... 
[CV] .vsSVC_ game-1.0, sc O-0.1- 5.2s 
[CV] sve_ gama= 1.0, SVC Os0.1 ...................................... 
[QV] ,vsSVC_ game-1.0, sc C-0.1- 5.5s 
[CV] Svc  gama= 1.0, SVC _CH0L1 ...................................... 
[V] .vsSVC_ game-1.0, SC O-0.1- 5.3s 
[CV] Svc  gamma= 10.0, SvC_ O-0.1 ..................................... 
[QV] .vsSVC_ gamg-10.0, sc C-0.1- 5.0s 
[CV] SVC__ game-10.0, Sc O-0.1 ..................................... 
[QV] ............................ SVC  gam-10.0, Svc C-0.1- 5.3s 
[CV] svc game-10.0, SvC O=0.1 ..................................... 
[CV] .osSVC_ gammm10.0, sc O»0.1- 5.4s 
[CV] svc. gamma= 0.01, Svc O*1.0 ..................................... 
[QV] ............................ SVC  gamm0.01, sc O-1.0- 4.9s 
[CV] svc. game-0.01, Svc O-1.0 ..................................... 
[QV] ............................ SVC  game-0.01, sc C-1.0- — 5.05 
[CV] Svc game= 0.01, Svc O*1.0 ..................................... 
[V] ............................ SVC gamme 0.01, vc. C-1.0- — 5.1s 
[V] .vsSVC_ gaummme-0.l, sc OC-1.0- 52s 
[CV] ............................. SVC dGmaə0.1, sc O»1.0- 5.2s 
[CV] ............................. SVC gammmO0.l,svc O»1.0- 5.3s 
[CV] sve_ gama= 1.0, SVC O=1.0 ...................................... 
[QV] ............................. SVC  gamem1.0, sc Osl.0- 5.1s 
[CV] Svc game= 1.0, suc  O=1.0 ...................................... 
[CV] ............................. SVC game-1.0, SC O-1.0- — 5.25 
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[CV] se gamee= 1.0, Sve_ CO=1.0 ...................................... 
[QV] ............................. SVC gamg-1.0, Svc O-1.0- 5.3s 
[CV] Svc gamme-10.0, suc O*1.0 ..................................... 
[CV] ............................ SVC gammm10.0, sc O»1.0- 5.25 
[CV] se  gamme-10.0, suc O*1.0 ..................................... 
[CV] ............................ SVC game-10.0, sc O-1.0- — 5.25 
[CV] Svc game-10.0, suc O*1.0 ..................................... 
[QV] ............................ SVC gamm-10.0, sc O-1.0- 5.2s 
[QV] ........................... SVC gamme-0.01, suc O-10.0- — 4.95 
[CV] .vsSVC_ Gam 0.01, sc O-10.0- 5.0s 
[QV] ........................... SVC gamme 0.01, sc O-10.0- — 5.1s 
[QV] .osSVC_ game-0.l, svc O-10.0- 5.1s 
[CV] .osSVC_ gammm0.l, sc O»10.0- 5.2s 
[CV] .vv SVC GamE 0.1, sc O-10.0- — 5.55 
[CV] Svc gamme-1.0, Svc O-10.0 ..................................... 
[QV] .vsSVC_ gamm-1.0, sc O-10.0- — 5.35 
[CV] Svc game= 1.0, Svc O*10.0 ..................................... 
[CV] ............................ SVC gamm-1.0, sc O-10.0- — 5.3s 
[CV] Svc game-1.0, Sve_ O*10.0 ..................................... 
[CV] ............................ SVC gammm1.0, sc O-10.0- =Éj5.4s 
[CV] svc_gemme= 10.0, Svc 0710.0 .................................... 
[CV] ........................... SVC Game 10.0, sc Os10.0- — 5.4s 
[CV] svc_geme= 10.0, suc  O=10.0 .................................... 
[CV] ........................... SVC dqamm=10.0, sc O-10.0- — 5.5s 
[CV] Svc gamee 10.0, Sve 0710.0 .................................... 
[CV] .osSVC_ game 10.0, sc O-10.0- — 5.4s 


Wall time: 3min 23s 


0.822666666667 
[Parallel(n jdos-1)]: Dne 36 outof 36 | elapsed: 3.2min finished | 


代码 66 的 输出 说 明 : EH Zü FE A RR 4888 e FFF 91 np Wr O fe X K Ar 2S E 
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务 中 的 超 参 数组 合 进行 调 优 ,共有 12 组 超 参 数 X3 折 交 义 验 证 =36 项 独立 运行 的 计算 任 
务 。 该 过 程 一 共 进 行 了 3 分 23 秒 , 寻 找到 的 最 佳 的 超 参 数组 合 在 测试 集 上 所 能 达成 的 最 
高 分 类 准确 性 为 82. 2796, 


3.1.4.2 并 行 搜索 


尽管 采用 网 格 搜索 结 合 交叉 验证 的 方法 ,来 寻找 更 好 超 参 数组 合 的 过 程 非常 耗 时 ; 然 
而 ,一旦 获取 比较 好 的 超 参 数组 合 , 则 可 以 保持 一 段 时 间 使 用 。 因 此 这 是 值得 推荐 并 且 相 
对 一 劳 永 逸 的 性 能 提升 方法 。 更 可 嘉 的 是 ,由 于 各 个 新 模型 在 执行 交叉 验证 的 过 程 中 间 
是 互相 独立 的 ,所 以 我 们 可 以 充分 利用 多 核 处 理 器 (Multicore processor) 甚 至 是 分 布 式 的 
计算 资源 来 从 事 并 行 搜索 (Parallel Grid Search) ,这 样 能 够 成 倍 地 节省 运算 时 间 。 让 我 
们 对 代码 66 中 超 参 数 搜索 的 过 程 略 作 修改 ,替换 为 代码 67 中 的 并 行 搜索 ,看 看 会 有 怎样 
的 效率 提升 。 


| 代码 67: 使 用 多 个 线程 对 文本 分 类 的 朴素 贝 叶 斯 模型 的 超 参数 组 合 执行 并 行 化 
的 网 格 搜索 


>>> JÁ. sklearn.datasets 中 导入 20 类 新 闻 文 本 抓 取 器 。 
>>> fram sklearn.datasets import fetch 20newsgroups 


>>> 45A numpy, 并 且 重 命名 为 rp. 
>>> import nunpy as np 


>>># 使 用 新 闻 抓 取 器 从 互联 网 上 下 载 折 有 数据 ,并 且 存 储 在 变量 news 中 , 
>>> news= fetch 20newsgroups (subset- 'all') 


>>>#M skleam.cross validation 导入 train test spl 让 用 来 分 割 数据 。 
>>> fram sklearn.cross validation import train test split 


>>> # XP HIT 3000 条 新 闻 文 本 进行 数据 分 割 ,258 文 本 用 于 未 来 测试 。 
>>>X train, X test, y train, y test- train test split (news.data[:3000], news.target[:3000], test 


Size- 0.25, randam state- 33) 


>>># 导 人 支持 向 量 机 (分 类 ) 模 型 。 
>>> fram sklearn.svm import SVC 


>>># HA Tfidfvectorizer 文本 抽取 器 。 
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的 超 参 数组 合 进行 调 优 ,执行 同样 的 36 项 计算 任务 - 


>>> fram sklearn.feature extraction.text import TfidfVectorizer 
>>># 导 人 Pipeline, 
>>> from sklearn.pipeline import Pipeline 


>>># 使 用 Pipeline 简化 系统 搭建 流程 ,将 文本 抽取 与 分 类 器 模型 串联 起 来 。 
>>> c1f= Pipeline ([ ('vect', TfidfVectorizer (stop words- 'english', analyzer- 
'word')), ('svc', SVC())]) 


>>># 这 里 需要 试验 的 2 个 超 参 数 的 个 数 分 别 是 4.3，svc”garma 的 参数 共有 10~ 2, 10^ 
-1... 。 这 样 我 们 一 共有 12 种 的 超 参数 组 合 ,12 个 不 同 参数 下 的 模型 。 
>>> parameters= {"svc__ gamma’: np.logspace(-2, 1, 4), 'svc C': rp.logspace (- 1, 1, 3)} 


>>># 从 skleam.grid search 中 导入 网 格 搜索 模块 Gridsearchcv, 
>>> fram skleam.grid search import GridSearchcv 


>>># 初 始 化 配置 并 行 网 格 搜索 ,n jo- 1 代表 使 用 该 计算 机 全 部 的 CEU, 
>>> gs-GridSeardYV (clf, parameters, verbose=2, refit- True, cv-3, n Jcbs— 1) 


>>># 执 行 多 线程 并 行 网 格 搜索 。 
>>> % time =gs.fit(X train, y train) 
>>>gs.best params , gs.best score 


>>># 输 出 最 佳 模型 在 测试 集 上 的 准确 性 。 
>>>print gs.score(X test, y test) 


Fitting 3 folds for each of 12 candidates, totalling 36 fits 

Wall time: 51.8 s 

0.822666666667 

[Parallel(n jdos-- 1)]: Done 36outof 36| elapsed:  42.7s finished 


同样 是 网 格 搜索 ,使 用 多 线程 线 并 行 搜索 技术 对 朴素 贝 叶 斯 模型 在 文本 分 类 任务 中 


- 共 只 花费 了 51. 8 秒 ,寻找 到 的 最 佳 


的 超 参 数组 合 在 测试 集 上 所 能 达成 的 最 高 分 类 准确 性 依然 为 82. 27%。 我 们 发 现在 没有 


O 拓展 小 贴 士 28: 在 全 面 了 解 如 何 使 用 sklearn 从 零 搭 建 机 器 学 习 系 统 之 后 ,作者 推荐 大 家 使 用 Pipeline 来 简化 代码 ,具体 的 使 用 
方式 可 以 参考 http://scikit-learn. org/stable/modules/ pipeline, html # pipeline-chaining-estimators. 


. 
= =< -n 一 


影响 验证 准确 性 的 前 提 下 ,通过 并 行 搜 索 基 础 有 效 地 利用 了 4 核心 CCPU) 的 计算 资源 , 几 
乎 4 倍 地 提升 了 运算 速度 ,省 了 最 佳 超 参数 组 合 的 搜索 时 间 。 


“p32 流行 库 /异型 实践 


本 书 重 点 介绍 的 Scikit-learn 几乎 赛 括 了 所 有 机 器 学 习 领 域 的 经 典 模型 。 和 擎 握 这 些 
模型 对 于 初学 者 来 讲 是 十 分 必要 的 。 然 而 ,许多 从 业者 却 更 加 热衷 于 那些 尽管 描述 复杂 
但 是 功能 强大 、 性 能 强劲 的 新 模型 ,教科 书 中 的 经 典 显 然 无 法 满足 他 们 的 胃口 。 机 需 学 习 
方法 之 所 以 能 够 在 短 短 十 几 年 间 成 为 计算 机 科学 领域 炙手可热 的 研究 话题 了 ,并 且 广 泛 
应 用 于 现实 生活 中 的 方方面面 ,很 大 程度 上 受 惠 于 其 极 高 的 成 果 转 化 率 。 大 量 描述 新 模 
型 的 论文 一 经 发 表 , 便 会 立刻 被 各 大 业界 公司 、 科 人 研 机 构 所 关注 。 一 旦 这 些 新 模型 被 证 明 
可 以 为 商业 系统 取得 更 高 的 性 能 、 获 得 更 多 的 鳞 利 ,那么 就 会 有 编程 爱好 者 参与 进来 从 事 
开源 代码 的 开发 ,甚至 有 些 会 被 封装 为 工具 包 供 给 更 多 的 人 使 用 。 

本 节 会 列举 儿 个 比较 成 功 的 案例 : 用 于 卓然 语言 (文本 ) 处 理 的 工具 包 NLTK ; ft fb 
词汇 语义 相似 度 的 词 回 量 (Word2Vec) 技 术 ; 比 许多 经 典 集 成 模型 的 性 能 表现 更 加 强劲 
的 XGBoost; 甚 至 Google 最 新 发 布 的 深度 学 习 框 架 Tensorflow。 我 们 将 介绍 这 些 时 下 
流行 的 编程 库 / 工 具 包 的 功能 ,指导 大 家 如 何 配置 和 使 用 他 们 ,并且 给 出 对 应 的 Python 代 
码 样 例 。 

鉴于 本 节 中 所 介绍 的 大 多 数 编程 库 暂 时 不 文 持 Windows 7 SP1 64 位 操作 系统 平台 ， 
因此 我 们 只 提供 在 Mac OS 上 的 配置 步骤 : 

(1) 先 去 Anaconda 官网 下 载 MAC OS Python 2. 7 64bit 的 版 本 ,并且 按 照 默 认 配置 
点 选 安装 。 如 果 安 装 成 功 , 在 Terminal 中 默认 的 Python 解释 器 环境 会 被 Anaconda Hd 
的 环境 覆盖 ,重新 启用 Python 将 如 图 3-6 所 示 。 我 们 可 以 发 现 ,新 的 Python 解释 器 与 
图 3-6 中 Mac OS R rJ Python 解释 器 环境 略 有 不 同 ，。 

[Jieleis-MBP:~ jieleizhu$ python 
fece 4.2.1 (Apple Inc. build 5577)] em darin "is 30:57:90 
Type "help", "copyright", "credits" or "license" for more information. 


Anaconda is brought to you by Continuum Analytics. 
Please check out: http://continuum.io/thanks and https://anaconda.org 


>>> q 


图 3-6 成 功 安 装 Anaconda 后 的 Mac OS Python 2.7.x 解释 器 样 例 


(D http://www. computerworld, com/article/2542247/it-careers/12-it-skills-that-employers-can-t-say-no-to. html, 
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(2) 接着 请 读者 在 Terminal 下 运行 代码 68 中 的 bash 命令 ,依次 安装 所 需 工 具 包 


pip,sklearn,matplotlib,pandas,nltk,gensim, xgboost,tensorflow , skflow 。 


| 代码 68. 安装 本 书 所 有 Python 编程 库 的 Mac OS | Bash 脚本 


S # 使 用 bash 自 带 的 easy install 安 装 pip, 用 于 后 续 工具 包 的 简易 安装 。 
S sudo easy install pip 
$ PAR pip 升 级 为 最 新 版 本 。 
$ sudo pip install -- upgrade pip 


S # 重 新 向 读者 确认 安装 基本 工具 库 , 如 果 已 经 安装 ,程序 将 会 有 提示 。 
S sudo pip install - U rurpy 

$ sudo pip install - U scipy 

S sudo pip install -U sklearn 

S sudo pip install -U matplotlib 

S sudo pip install -U pandas 


S £47 NI 所 需 的 必要 工具 包 。 
S sudo easy install -U BeautifulSoup4 
S sudo pip install -U nltk 


S # 安 装 Word2Vec 技 术 相 关 的 工具 包 gensim, 
S sudo pip install - Ugenism 


$ # 安 装 XCBoost 技 术 相 关 的 Python LRE xgooost, 
$ sudo pip install -U xgooost 


$ +# 安 装 Tensorflow 以 及 更 加 适合 Scikit- leam 接 口 的 skFlow. 

$ sudo easy install -U six 

$ sudo pip install -- upgradehttps: //storage .googleapis .cam/tensorf low/mac/ 
tensorflow- 0.5.0- py2- none- any.whl 

$ pip install git+ git: //github.cam/tensorflow/skflow.git 


S +# 重 新 运行 Bython 解 释 器 环境 。 : 
$ python | 
(3) 继续 在 Python 中 使 用 如 下 命令 导入 所 有 的 工具 包 , 检 验 是 否 安装 成 功 。 


>>> import numpy, scipy, sklearn, pandas, matplotlib, gensim, nltk, xgboost, tensorflow, skflow 


(4) 接着 在 Anaconda 的 Launch 里 选择 IPython NoteBook 在 那里 面 新 建 一 个 
Python 源 代 码 文 件 , 再 输入 一 次 上 述 代 码 ,检验 安装 。 

(5) 如果 在 检验 过 程 中 出 现 工 具 包 加 载 错误 ,请 读者 复制 粘贴 对 应 错误 代码 到 搜索 
引擎 中 寻找 解决 方案 2。 笔 者 在 配置 中 也 难免 会 遇 到 一 些小 问题 ,使 用 搜索 引擎 寻找 解 
决 方案 是 作为 一 名 程序 员 必 备 的 良好 素质 。 


3.2.1 自然 语言 处 理 包 (NLTK) 


早期 的 自然 语言 处 理 (Natural Language Processing) 是 语言 学 (Linguistics) 的 一 门 
St X FEH ,侧重 于 对 人 类 语言 的 词法 (单词 的 形成 和 组 成 )、 句 法 (单词 如 何 组 成 短语 或 者 
句子 的 规则 ) 等 的 研究 。 但 是 随 着 计算 机 和 互联 网 的 兴起 ,科学 家 将 目光 投向 了 更 有 前 景 
的 领域 : 计算 语言 学 (Computational Linguistics) , 即 期 望 借助 计算 机 强大 的 运算 能 力 和 
海量 的 互联 网 文本 ,来 提高 日 然 语 言 处 理 能 力 。NLP 因此 也 不 青 局 限 在 语言 学 的 角度 ， 
而 是 扩展 到 人 工 智 能 (Artifical Intelligence) 的 研究 领域 。 这 项 研究 开始 探讨 如 何 让 计算 
机 处 理 . 生 成 甚至 理解 人 类 的 自然 语言 ,并 且 许 多 传统 语言 学 的 任务 也 逐渐 开始 被 计算 机 
运算 所 替代 。 

这 一 节 所 介绍 的 NLTK(Natural Language ToolKit) ,是 时 下 非常 流行 的 在 Python 
解释 器 环境 中 用 于 自然 语言 处 理 的 工具 包 。 对 于 NLTK 的 使 用 者 而 言 , 它 就 像 是 一 名 极 
其 高 效 的 语言 学 家 ,为 您 快速 完成 对 自然 语言 文本 的 深层 处 理 和 分 析 。 

如 果 没 有 日 然 语 言 处 理 技 术 , 对 于 如 下 的 两 行 英文 句子 ,除了 使 用 我 们 在 3.1. 1. 1 特 
征 抽取 一 节 学 习 到 的 词 袋 法 (Bag of Words) 之 外 ,似乎 没有 更 多 的 处 理 和 分 析 手 段 ,如 代 
fi 69 所 示 。 

The cat is walking in the bedroom. 


A dog was running across the kitchen. 


代码 69. 使 用 词 袋 法 (Bag-of-Words) 对 示例 文本 进行 特征 向 量化 


>>># 将 上 述 两 个 句子 以 字符 串 的 数据 类 型 分 别 存储 在 变量 sent1 5j sent2 中 
>>> sentl= "The cat is walking in the bedrom. ' 
>>> sent% 'A dog was running across the kitchen. ' 


BIB NEN 
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D 拓展 小 贴 士 29: 作者 在 此 处 列 出 几 种 常见 问题 的 解决 方案 http; / /stackoverflow. com/questions/33900256/error-unknown-locale- 


utf-8-on-pandas-import-mac-os-x-when-running-fish-sh 
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性 质 


>>># 从 sklearn.feature extraction.text rh S A. CountVectorizer 
>>> frm sklearn.feature extraction.text import CountVectorizer 
>>> count. vec- CountVectorizer () 


>>> sentences= [sentl, sent2] 


>>># 输 出 特征 向 量化 后 的 表示 。 

>>> print count vec.fit transform(sentences) .toarray () 
[0110110021 0] 

[(10010011101]] 


>>># 输 出 向 量 各 个 维度 的 特征 含义 。 

>>> print count vec.get feature names () 

[u'across', u'bedroan', u'cat', u'dog', u'in', u'is', u'kitchen', u'ruming', 
u'the', u'walking', u'was'] 


而 我 们 下 面 所 要 演示 的 范例 代码 70 则 使 用 NLTK 对 这 两 句 里 面 所 有 词汇 的 形成 与 
类 属 乃 至 词汇 如 何 组 成 短语 或 者 句子 的 规则 ,做 了 更 加 细致 地 分 析 。 


| 代码 70: 使 用 NLTK 对 示例 文本 进行 语言 学 分 析 


>>># A nltk, 
>>> import nltk 


>>># 对 句子 进行 词汇 分 割 和 正规 化 ,有 些 情况 如 aren't $8 EAP HI are 和 n't; RA I'm 要 分 割 为 
I Al 'm, | 
>>> tokens l-nltk.word tokenize (sentl) 
>>> print tokens 1 

["Ihe', 'cat', *1s', 'walking', 'in', 'the', "bedroan' , ve] 


>>> tokens 2-nltk.word tokenize (sent2) 
>>> print tokens 2 


['A', 'dog', 'was', 'running', 'across', 'the', 'kitchen', '.'] 
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>>># 整 理 两 句 的 词 表 ,并 且 按照 AscII 的 排序 输出 。 
>>> vocab 1= sorted(set (tokens 1)) 
>>> print vocab 1 
[i "The', "bedroan', 'cat', ‘in', 'is', 'the', 'walking'] 


>>> vocab 2- sorted(set (tokens 2)) 
>>> print vocab 2 
['.", ‘A’, ‘across', ‘dog', "kitchen', "running", 'the', 'was'] 


>>> +J iñ Ik, stermer 寻 找 各 个 词汇 最 原始 的 词根 。 

>>> stemmer= nltk.stem.PorterStenmer () 

>>> stem 1- [stemmer.stem(t) for t in tokens 1] 

>>> print stem 1 

[u'The', u'cat', u'is', u'walk', u'in', u'the', u'bedroan', u'.'] 


>>> stem 2- [stemmer.stem(t) for t in tokens 2] 
>>>print stem 2 
[u'A', u'dog', u'wa', u'run', u'across', u'the', u'kitchen', u'.'] 


>>># 初 始 化 词性 标注 器 ,对 每 个 词汇 进行 标注 。 

>>>pos tag l-nltk.tag.pos tag(tokens 1) 

>>> print pos tag 1 : 
[("me', 'DI'), ('cat', 'NN'), ('is', VEZ'), ('walking', 'VBG'), ('in', 'IN'), ('the', 'DT'), ('bedroam: 
', ND, (11, °) 


>>>pos tag 2-nltk.tag.pos tag(tokens 2) 

>>>print pos tag 2 
[CA', "Dr", ('dog', 'NN'), ('was', "VED'), (‘running', "VEG'), ('across', 'INU), ('the', 'DT'), (" 

kitchen', 'NN'), ('.', '.")] 


3.2.2 词 向 量 (Word2Vec) 技 术 


我 们 在 “3. 1. 1. 1 特征 抽取 ?” 节 详细 介绍 了 如 何 通 过 词 袋 法 (Bag of Words), 即 以 每 
个 词汇 为 特征 ,加 量化 表示 一 个 文本 ;并 且 提 供 了 了 几 种 特征 量化 的 技术 , 如 
CountVectorizer 和 TfidfVectorizer。 词 袋 法 (Bag of Words) 可 以 视 作 对 文本 加 量化 的 表 
ZR DEAN. ,通过 这 项 技术 可 以 对 文本 之 间 在 内 容 的 相似 性 进行 一 定 程度 的 度量 。 但 是 对 于 
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的 两 段 文本 , 词 袋 法 (Bag of Words) 技 术 似 乎 对 计算 他 们 的 相似 度 表 现 得 无 能 为 力 。 
The cat is walking in the bedroom. 
A dog was running across the kitchen. 

尽管 从 语义 上 讲 , 这 两 段 文本 所 描述 的 场景 极为 相似 ;但 是 ,从 词 袋 法 表示 来 看 ,这 两 
段 文 本 唯一 相同 的 词汇 是 the, 找 不 到 任何 语义 层面 的 联系 。 

而 在 “3. 2. 1 自然 语言 处 理 包 (NLTK)” 节 中 ,我 们 进一步 学 习 到 如 何 借助 更 加 复杂 
的 自然 语言 处 理 技术 对 文本 进行 分 析 。 这 使 得 我 们 不 仅 能 够 对 词汇 的 具体 词性 进行 标 
注 ,甚至 可 以 对 句子 进行 解构 。 然 而 ,即便 我 们 能 够 使 用 NLTK 中 的 词性 标注 技术 对 上 
述 两 段 文 本 进行 分 析 , 找 出 对 应 词汇 在 词性 方面 的 相似 性 ,也 无 法 针对 有 具体 词汇 之 间 的 含 
义 是 否 相 似 进 行 度量 。 

因此 ,为 了 寻找 词汇 之 间 的 相似 度 关 系 ,我 们 试图 也 将 词汇 的 表示 回 量 化 。 这 样 就 可 
以 通过 计算 表示 词汇 的 向量 之 间 的 相似 度 ,来 度量 词汇 之 间 的 含义 是 否 相 似 。 而 为 了 学 
习 到 这 样 的 词 回 量 表 示 ,Yoshua 教授 等 人 (参考 文献 [13 DEAJ& Google 研究 员 Mikolov 
等 人 (参考 文献 [14]) 分 别 从 神经 网 络 模型 的 角度 提出 了 自己 的 框架 。 

鉴于 本 书 受 众 的 机 需 学 习 理 论 背 景 不 一 ,作者 在 这 里 只 是 借 由 Yoshua 教授 的 论 
文 L13j 中 所 绘 的 图 3-7 形象 地 解释 其 学 习 过 程 , 并 且 在 解释 的 过 程 中 会 涉及 一 些 与 配置 
相关 的 超 参 数 ,请 读者 留意 : 首先 ,我 们 要 明确 ,句子 中 的 连续 词汇 片段 ,也 被 称 作 上 下 文 
(Context) 。 词 汇 之 间 的 联系 就 是 通过 无 数 这 样 的 上 下 文 建立 的 。 以 这 样 一 句 英 文 为 例 : 
The cat is walking in the bedroom. 如 果 我 们 需要 这 人 句 话 中 所 有 上 下 文 数量 为 4 的 连续 
词汇 片段 ,那么 就 有 The cat is walking 、cat is walking in,is walking in the 以 及 
walking in the bedroom 。 从 语言 模型 (Language Model) 的 角度 来 讲 , 每 个 连续 词汇 片段 
的 最 后 一 个 单词 究竟 有 可 能 是 什么 ,都 是 受到 前 面 3 个 词汇 的 制约 。 因 此 ,这 就 形成 了 一 
个 根据 前 面 3 个 单词 ,预测 最 后 一 个 单词 的 监督 学 习 系 统 。 如 果 我 们 使 用 神经 网 络 框架 
来 描述 , 便 是 图 3-7 所 代表 的 一 个 监督 学 习 的 神经 网 络 模型 。 当 上 下 文 数量 为 n 的 时 候 ， 
提供 给 这 个 网 络 的 输入 (Input) 都 是 前 n 一 1 个 连续 的 词汇 片段 志 sta + fÉ In] ny H 
标 输出 (Output) 就 是 最 后 一 个 单词 vo, 。 而 在 网 络 中 ,用 于 计算 的 都 是 这 些 词汇 的 问 量 表 
示 , 如 CC- ), 每 一 个 红色 实心 圆 都 代表 词 回 量 中 的 元 素 。 每 个 词汇 红色 实心 圆 的 个 数 
代表 了 词 回 量 的 维度 (Dimension) ,并 且 所 有 词汇 的 维度 都 是 一 致 的 。 神 经 网 络 的 训练 也 
是 一 个 通过 不 断 迭 代 、 更 新 参数 循环 往复 的 过 程 呈 , 而 我 们 从 图 3-7 这 个 网 络 最 终 获得 的 
就 是 每 个 词汇 独特 的 向 量 表示 ，。 
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3. 2. 4 TensorFlow 框架 一 节 。 
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图 3-7 ”一 个 基于 神经 网 络 的 语言 模型 ,图片 来 源 于 参考 文献 L13j 


本 节 ,我 们 将 使 用 gensim 工具 包 , 利 用 代码 71 对 之 前 在 本 书 中 多 次 用 到 的 20 类 新 
闻 文 本 (20newsgroups) 进 行 词 回 量 训 练 ; 并 且 通 过 抽样 几 个 词汇 ,查验 Word2Vec 技术 
是 否 可 以 在 不 借助 任何 语言 学 知识 的 前 提 下 ,寻找 到 相似 的 其 他 词汇 。 


| 代码 71. 用 20 类 新 闻 文 本 (20newsgroups) 进 行 词 向 量 训练 


>>># M sklearn.datasets FA 20 类 新 闻 文 本 抓 取 器 。 
>>> fram sklearn.datasets import fetch 20newsgroups 
>>># 通 过 互联 网 即时 下 载 数 据 。 

>>> news= fetch 20newsgroups (subset= 'all') 

>>> X, y-news.data, news.target 


>>> #M bs4 5f A BeautifulSoup. 
>>> fram bs4 import BeautifulSoup 
>>>+# A nltk 和 re T RJ , 
>>> import nltk, re 
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>>># 定 义 一 个 函数 名 为 news to _sentences 讲 每 条 新 闻 中 的 句子 逐一 剥离 出 来 ,并 返回 一 个 句子 : 
的 列表 。 
>>> def news to sentences (news): 

>>> news text- BeautifulSoup (news) .get_text () 

>>> tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') 

>>> raw _sentences= tokenizer.tokenize (news text) 

>>> sentences= [] 

>>> for sent in raw sentences: 

>>> sentences.append (re.sub(' [^a- zA Z]', ' ', sent.lower() .strip()).split()) 
>>> retum sentences 


>>> sentences- [] 


>>># 将 长 篇 新 闻 文 本 中 的 句子 剥离 出 来 ,用 于 训练 。 


>>> for x in X: 
>>> sentences +=news to sentences (x) 


>>># 从 gensim.models 里 导入 word2vec, 
>>> from gensim.models import word2vec 


>>># 配 置 词 向 量 的 维度 。 

>>> nm features- 300 

>>># 保 证 被 考虑 的 词汇 的 频 度 。 

>>>min word count= 20 

>>># 设 定 并 行 化 训练 使 用 CEU 计 算 核心 的 数量 ,多核 可 用 。 
>>> nm workers= 2 

>>># 定 义 训练 词 向 量 的 上 下 文 窗口 大 小 。 

>>> context= 5 

>>> downsampLing= le- 3 


>>> # 从 gensim.models FA word2vec, 
>>> from gensim.models import word2vec 


>>># 训 练 词 向 量 模型 。 

>>> model= word2vec.Word2Vec (sentences, workers- num workers, N 
Size-num features, min count-min word count, \ 
window- context, sample- downsampling) 
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>>># 这 个 设 定 代表 当前 训练 好 的 词 向 量 为 最 终 版 ,也 可 以 加 快 模型 的 训练 速度 。 
>>>model.init sims (replace= True) 


>>># 利 用 训练 好 的 模型 ,寻找 训练 文本 中 与 moming 最 相关 的 10 个 词汇 。 

>>> model .most similar ('morning') 

[(u'afternoon', 0.7533695697784424) , 
(u'weekend', 0.6581624746322632) , 
(u'evening', 0.6570416688919067) , 
(u'saturday', 0.63960862159729) , 
(u'yesterday', 0.6292878985404968) , 
(u'friday', 0.6119368076324463) , 
(u'sunday', 0.6075364351272583) , 
(u'tuesday', 0.6071774959564209) , 
(u'monday', 0.6050551533699036) , 
(u'thursday', 0.5909229516983032) ] 


>>># 利 用 训练 好 的 模型 ,寻找 训练 文本 中 与 erail 最 相关 的 10 个 词汇 。 
>>>model most. similar('email') 
[(u'mail', 0.6806867718696594), 
(u'replies', 0.6374378204345703), 
(u'respond', 0.5839084386825562) , 
(u'contact', 0.5823279619216919) , 
(u'send', 0.5804370641708374) , 
(u'ackiress', 0.5789896249771118) , 
(u'snail', 0.5748004913330078) , 
(u'requests', 0.5558102130889893) , : 
(u'addresses', 0.5551006197929382) , : 
(u'postal', 0.5530245304107666) ] |] 


通过 观察 代码 71 的 两 组 输出 ,我 们 不 难 发 现 , 在 不 使 用 语言 学 词典 的 前 提 下 , 词 回 量 
技术 仍然 可 以 借助 上 下 文 信息 找到 词汇 之 间 的 相似 性 。 这 一 技术 不 仅 节 省 了 大 量 专业 人 
士 的 作业 时 间 ,而 且 也 可 以 作为 一 个 基础 模型 应 用 到 更 加 复杂 的 目 然 诸 言 处 理 任 务 中 。 

最 后 ,笔者 需要 问 读 者 们 指出 的 是 , 词 回 量 的 训练 结果 很 大 程度 上 受 所 提供 的 文本 影 
啊 。 换 言 之 ,这 些 词 回 量 绝 不 是 固定 的 ;您 也 可 以 灵活 运用 这 个 模型 ,训练 不 同文 本 内 部 
独 有 的 词 问 量 。 
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3.2.3 XGBoost 模型 


提升 (Boosting) 分 类 器 隶属 于 集成 学 习 模 型 。 它 的 基本 思想 是 把 成 百 上 千 个 分 类 准 
确 率 较 低 的 树 模 型 组 合 起 来 ,成 为 一 个 准确 率 很 高 的 模型 。 这 个 模型 的 特点 在 于 不 断 迭 
代 , 每 次 迭代 就 生成 一 困 新 的 树 。 对 于 如 何在 每 一 步 生 成 合理 的 树 , 大 家 提出 了 很 多 的 方 
法 ,比如 我 们 在 集成 (分 类 ) 模 型 中 提 到 的 梯度 提升 树 (Gradient Tree Boosting)。 它 在 生 
成 每 一 棵 树 的 时 候 采 用 梯度 下 降 的 思想 ,以 之 前 生成 的 所 有 决策 树 为 基础 , 回 着 最 小 化 给 
XE. H by PAPACY 75 In] EIE — 2D 

在 合理 的 参数 设置 下 ,我 们 往往 要 生成 一 定数 量 的 树 才 能 达到 令 人 满意 的 准确 率 。 
在 数据 集 较 大 较 复 杂 的 时 候 , 模 型 可 能 需要 几 千 次 迭代 运算 。 但 是 ,XGBoost 工具 更 好 
地 解决 这 个 问题 。XGBoost 的 全 称 是 eXtreme Gradient Boosting。 正 如 其 名 , 它 是 
Gradient Boosting Machine 的 一 个 C++ 实现 ,作者 是 目前 在 华盛顿 大 学 人 研究 机 器 学 习 的 
陈 天 奇 博士 。 他 在 人 研究 中 深 感 自己 受制 于 现 有 库 的 计算 速度 和 精度 ,因此 在 2014 ^E. 9 H 
开始 着 手 搭建 XGBoost 项 目 , 并 在 2015 年 夏天 逐渐 成 形 。XGBoost 最 大 的 特点 在 于 能 
够 自动 利用 CPU 的 多 线程 进行 并 行 ; 同 时 按照 陈 天 奇 等 人 论文 L12] 中 的 说 法 ,他 们 也 在 
算法 上 加 以 改进 提高 了 精度 。 

本 节 ,我 们 将 在 代码 72 中 使 用 XGBoost 模型 ,根据 泰坦 尼克 号 的 乘客 数据 上 进行 生 
还 者 预测 ;同时 也 与 其 他 我 们 在 书 中 提 到 的 集成 分 类 模型 进行 性 能 比较 。 


代码 72, 对 比 随机 决策 森林 以 及 XGBoost 模型 对 泰坦 尼克 号 上 的 乘客 是 否 生还 
的 预测 能 力 


>>># 导 和 pandas 用 于 数据 分 析 。 
>>> import pandas as pd 


>>># 通 过 EL 地 址 来 下 载 Titanic d. 
>>> titanic=pd.read csv ('http://biostat.mc.vanderbi 1t .edu/wi ki /pubAain/DataSets/titanic.txt') 


>>># 选 取 pclass, age 以 及 sex 作 为 训练 特征 。 
>>>X=titanic[['pclass', 'age', 'sex']] 
>>> y-titanic['survived'] 


>>># 对 缺失 的 age 信息 ,采用 平均 值 方法 进行 补 全 , 即 以 age 列 已 知 数据 的 平均 数 填充 。 
»»»X['age'].fillna(X['age'] .mean ()，inplace= True) 


>>># 对 原 数据 进行 分 割 ,随机 采样 25% 作 为 测试 集 。 
>>> fram sklearn.cross validation import train test split 
>>>X train, X test, y train, y test-train test split(X, y, test size- 0.25, randam state- 33) 


>>> 从 skleam.feature extraction 导 人 DictVectorizer. 
>>> fram sklearn.feature extraction import DictVectorizer 
>>> vec= DictVectorizer (sparse- False) 


>>># 对 原 数据 进行 特征 向 量化 处 理 。 
>>>X train-vec.fit transform(X train.to dict (orient- 'record')) 
>>> X_test= vec.transform(_test.to dict (orient- 'record')) 


>>># 采 用 默认 配置 的 随机 森林 分 类 器 对 测试 集 进行 预测 。 

>>> from sklearn.ensemble import RandcmEorestClassifier 

>>> rfc= RanimiEorestClassifier () 

>>> rfc.fit (X train, y train) 

>>> print "The accuracy of Random Forest Classifier on testing set:', rfc.score X test, y test) 


The accuracy of Random Forest Classifier on testing set: 0.775075987842 


>>># 采 用 默认 配置 的 xcBoost 模 型 对 相同 的 测试 集 进行 预测 。 

>>> fram xgooost import XGBClassifier 

>>> xgbc- XGBClassifier () 

>>> xgoc.fit X train, y train) 
XGBClassifier(base score- 0.5, colsample bylevel-1, colsample bytree- 1, 
gme 0, learning rate= 0.1, max delta step-0, max deptir 3, 
min child weight- 1, missing=None, n estimators- 100, nthread-- 1, 
dojective- 'binary:logistic', reg alpha-0, reg lambda- 1, 
Scale pos weight- 1, seed- 0, silent- True, subsanple- 1) 


>>> print "The accuracy of eXtreme Gradient Boosting Classifier on testing set:', xgoc.score(X test, y | 
test) | 
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The accuracy of eXtreme Gradient Boosting Classifier cn testing set: 0.787234042553 


E EM = 


通过 对 上 述 输出 的 观察 ,我 们 可 以 发 现 ,XGBoost 分 类 模型 的 确 可 以 发 挥 更 好 的 预 
测 能 力 。 而 事实 上 ,不 仅仅 只 是 Titanic 这 一 个 数据 分 析 任务 ,XGBoost 之 所 以 如 此 负 有 
盛名 ,更 是 因为 该 模型 在 多 项 数据 分 析 欧 赛 中 帮助 选手 取得 名 次 。 对 于 有 具体 如 何在 实战 
中 使 用 XGBoost, 这 些 和 参赛 选手 也 道 出 了 他 们 的 经 验 , 感 兴趣 的 读者 可 以 参考 如 下 链接 : 

http://blog. kaggle. com/2015/11/30/flavour-of-physics-technical-write-up-1st- 
place-go-polar-bears/ 

http://blog. kaggle. com/2015/09/22/caterpillar-winners-interview-1st-place- 
gilberto-josef-leustagos-mario/ 

http://blog. kaggle. com/2015/10/21 /recruit-coupon-purchase-winners-interview- 
2nd-place-halla-yang/ 


3.2.4 Tensorflow 框架 


2015 年 10 月 5 日 ,谷歌 为 TensorFlow 提交 了 注册 商标 申请 (登记 编号 86778464), 
并 这 样 描述 它 : (1) 用 以 编写 程序 的 计算 机 软件 ;(2) 计算 机 软件 开发 工具 ;(3) 可 应 用 于 
A TAS BE REY 高 性 能 计算 、 分 布 式 计 算 .虚拟 化 和 机 需 学 习 这 些 领 域 ;(4) 软件 库 可 
应 用 于 通用 目的 的 计算 .数据 收集 的 操作 .数据 变换 、 输 入 输出 .通信 图像 显示 人 工 智能 
等 领域 的 建 模 和 测试 ;(5) 软件 可 用 作 应 用 于 人 工 智能 等 领域 的 应 用 程序 接口 (APDI) 。 

2015 年 11 A 9 A Google 宣布 对 Tensorflow 开源 。 一 时 间 ,Tensorflow 在 GitHub 
上 面 的 下 载 量 跃升 至 全 站 第 2 位 ,可 见 全 世界 兴趣 爱好 者 对 这 球 开 源 软 件 的 热情 。 作 者 
曾 在 前 言 中 说 过 , 现 如 今 许 多 知名 的 IT 企业 ,如 Google, Facebook, Microsoft, Apple 其 
至 国内 的 百度 ,无 不 在 机 需 学 习 研 究 领 域 给 予 非常 大 的 资金 和 人 力 的 投入 ;但 是 , 鲜 有 将 
内 部 使 用 的 平台 公之于众 的 。 当 然 ,作者 虽然 不 认为 Google 这 次 的 做 法 完全 是 一 次 “ 花 
善 捐助 ?9 ,但 是 不 管 怎样 这 样 的 举措 的 确 令 人 拍手 叫好 。 

许多 人 开始 以 为 Tensorflow 只 是 一 个 用 于 深 入 学 习 人 研究 的 系统 ,其 实 不 然 。 应 该 
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性 影响 的 例子 。 其 中 包括 : RA MapReduce 这 种 分 布 式 存储 和 计算 框架 的 介绍 论文 (参考 文献 [15]), 从 而 产生 了 Hadoop, Spark 等 ;开源 
Android 手机 操作 系统 , 几 年 之 间 雄 霸 移 动 端 操作 系统 市 场 ,与 苹果 公司 的 iOS 一 较 高 下 。 不 知道 这 次 公开 Tensorflow 这 个 曾 在 Google 
内 部 作为 机 器 学 习 的 系统 框架 ,是否 也 意味 着 Google 正在 为 今后 的 人 工 智能 革命 进行 战略 布局 。 换 言 之 ,如 果 有 更 多 的 数据 科学 家 开始 
使 用 Tensorflow 来 从 事 机 器 学 习 方 面 的 研究 ,那么 作者 骨 昧 揣测 ,这 将 有 利于 Google 对 日 益 发 展 的 机 器 学 习 行 业 拥 有 更 多 的 主导 权 。 
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说 ,这 是 一 个 完整 的 编码 框架 。 就 如 同 我 们 按照 Python 编程 语法 设计 程序 一 样 ， 
Tensorflow 内 部 也 有 自己 所 定义 的 常量 .变量 .数据 操作 等 有 要素。 不 同 的 是 ,Tensorflow 
使 用 图 (Graph) 来 表示 计算 任务 ;并 使 用 会 话 (Session) 来 执行 图 。 如 代码 73 所 示 , 我 们 
以 使 用 显 式 会 话 输 出 一 句 话 作为 例子 。 


| 代码 73. 使 用 wena 输出 一 Ae 


»»»4 5A tensorflow 工 具 包 并 重 命 名 为 tf. 
>>> import tensorflow as tf 


>>># 导 人 nurpy 并 重 命名 为 rp. 
>>> import munpy as np 


>>># 初 始 化 一 个 Tensorflow 的 常量 : Hello Google Tensorflow! FFP ,并 命名 为 gresting 作 为 一 个 | 
计算 模块 。 
>>> greeting= tf.constant ("Hello Google Tensorflow! ') 


>>># 启 动 一 个 会 话 。 

>>> sess= tf.Session() 

>>># 使 用 会 话 执行 greeting 计 算 模 块 。 

>>> result= sess.run (greeting) 

>>>+ 输 出 会 话 执行 的 结果 。 

>>>Print result 

>>># 关 闭会 话 。 这 是 一 种 显 式 关 闭会 话 的 方式 。 
>>> sess.close () 


Hello Google Tensorflow! | 


可 以 说 ,代码 73 是 许多 介绍 编程 的 书籍 开盘 的 老 套 路 。 不 过 代码 74 会 告诉 大 家 ， 
Tensorflow 是 如 何 像 搭 积木 一 样 将 各 个 不 同 的 计算 模块 拼接 成 流程 图 ,完成 一 次 线性 也 
数 的 计算 ,并 在 一 个 隐 式 会 话 中 执行 的 。 


| 代码 74. 使 用 Tensorflow 完成 一 次 线性 函数 的 计算 


>>> #788 matrixl 为 Tensorflow 的 一 个 1* 2 的 行 向 量 。 
»»»matrixl- tf.constant ([[3., 3.11) 

»»»4J8HBH matrix2Jg Tensorflow 的 一 个 2* 1 的 列 向 量 。 
»»»matrix2- tf.constant ( [ [2.1, [2.]]) 


` 142 Pyho 机 器 学 习 及 实 中 


>>>#product 将 上 述 两 个 算 子 相 乘 , 作 为 新 算 例 。 
>>> product= tf.matmul (matrixl, matrix2) 


>>># 继 续 将 product 与 一 个 标量 2.0 求 和 拼接 ,作为 最 终 的 linear 算 例 。 
>>> linear= tf.add (product, tf.constant (2.0) ) 


>>># 直 接 在 会 话 中 执行 linear 算 例 , 相 当 于 将 上 面 所 有 的 单独 算 例 拼接 成 流程 图 来 执行 。 
>>>with tf.Session() as sess: 

>>> result= sess.run (linear) 

>>> print result 


[[ 14.]] | 


尽管 代码 73 和 代码 74 可 以 说 明 Tensorflow 是 一 个 编程 框架 ,但 是 截至 目前 还 没有 
显示 出 其 机 器 学 习 的 能 力 。 那 么 接 下 来 的 代码 75 将 要 加 各 位 读者 展示 如 何 利 用 
Tensorflow 自行 搭建 一 个 线性 分 类 器 ,重新 对 1. 1 机 器 学 习 综 述 一 节 的 “ 良 / 恶 性 乳腺 总 
肿瘤 ?从 事 预 测 。 与 直接 使 用 Scikit-learn 中 已 经 编写 好 的 LogiticRegression 模型 不 同 ， 
Tensorflow 允许 使 用 者 自由 选取 不 同 操 作 , 并 组 织 一 个 学 习 系 统 。 这 里 我 们 对 所 要 使 用 
的 线性 分 类 器 做 一 个 简化 : HR 0.5( 恨 性 肿瘤 为 0, 恶性 肿瘤 为 1) 为 界 , 并 采用 最 小 二 乘法 
拟 合 模型 参数 。 


[ “代码 75: 使 用 Tensortow 自 定义 一 个 线性 分 类 器 用 于 对 * 良 /恶性 乳腺 癌 肿 交 " 
进行 预测 

>>> # A tensorflow, 

>>> import tensorflow as tf 

>>> £F SEA numpy。 

>>> import numpy as np 

>>> #4 A pandas, 

>>> import pandas as pd 


>>># 从 本 地 使 用 pandas P AR FL AR IE h 8 B5] 1| 2 RR OI 134 23S , 
>>> train- pd.read csv('../Datasets/Breast- Cancer/breast- cancer- train.csv') 
>>> test- pd.read csv('../Datasets/Breast- Cancer/breast- cancer- test.csv') 


>>># 分 隔 特征 与 分 类 目标 。 
>>>X train=rp.float32(train[['Clump Thickness', 'Cell Size']].T) 


>>>yY train- np.float2 (train['Type'] .T) 
>>>X test-np.floatz2 (best[['Clump Thickness', 'Cell Size']].T) 
>>> y test-np.floatz (test ['Type'] .T) 


>>># 和 定义 一 个 tensorflow 的 变量 b 作 为 线性 模型 的 截 距 ,同时 设置 初始 值 为 1.0. 

>>> b= tf. Variable (tf.zeros ([1])) 

>>># 定 义 一 个 tensorflow fy E ft W 作 为 线性 模型 的 系数 ,并 设置 初始 值 为 -1.0 至 1. Ozma 
布 的 随机 数 。 

>>> W tf.Variable (tf.randan uniform([1, 2], — 1.0, 1.0)) 


>>># 显 式 定 义 这 个 线性 函数 。 
>>> y= tf .matmul (W, X train) +b 


>>> f£ Hj tensorflow 中 的 reduce mean 取 得 训练 集 上 均 方 误差 。 
>>> loss= tf.reduce mean (tf .square (y - y train)) 


>>># 使 用 梯度 下 降 法 估计 参数 w, b, 3 Ho 8 8 4625 KA 0.01, 这 个 与 sikit- ELI 
SGIRegressor 类 似 。 
>>> optimizer= tf.train.GradientDescentOptimizer (0.01) 


>>># 以 最 小 二 乘 损失 为 优化 目标 。 
>>> train- optimizer.minimize (loss) 


>>># 初 始 化 所 有 变量 。 
>>> init=tf.initialize all variables () 


>>> #JF Ei Tensorflow 中 的 会 话 。 
>>> sess= tf.Session() 


>>># 执 行 变 量 初 始 化 操作 。 


>>> sess.run(init) 


>>> +I 1000 轮 次 ,训练 参数 。 

>>> for step in xrange(0, 1000): 

>>> sess.run (train) 

>>> if step $200 == 

>>> print step, sess.run(W), sess.run (b) 
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0 [[ 0.32832965  0.01579139]] [~ 0.06232916] 

200 [[ 0.06633329  0.06811267]] [- 0.08111253] 
400 [[ 0.05831201  0.07677723]] [- 0.08568323] 
600 [[ 0.05788761  0.07736142]] [- 0.08667096] 
800 [[ 0.05786182 0.07741673]] [~ 0.08684841] 


>>> 站 准备 测试 样本 。 
>>> test negative- test. loc[test ["Iype'] == 0] [['Clurp Thickress', 'Gell Size']] 
>>> test positive= test.loc[test["Iype'] == 1] [['Clurp Thickmess', 'Gall Size']] 


>>> £ 以 最 终 更 新 的 参数 作 图 3-8. 

>>> import matplotlib.pyplot as plt 
>>> plt.scatter (test. negative['Clump Thickness'], test negative['Cell Size'], marker- 'o', s= 200, c : 
pom x 
>>>plt.scatter (test. positive['Clump Thickness'], test positive['Cell Size'], marker- 'x', s= 150, c 7 
= 'black') : 


>>> plt.xlabel ("Clump Thickness") 
>>> plt.ylabel ("Cell Size") 


>>> Le np.arange (0, 12) 
>>># 这 里 要 强调 一 下 ,我 们 以 0.5 作 为 分 界面 ,所 以 计算 方式 如 下 。 


>>> ly (0.5 -sess.run(b) -1x * sess.run(W)[0][0]) / sess.run(W) [0] [1] 


>>> plt.plot (1x, ly, color = 'green') 3 
>>> plt.show () | 


对 比 图 3-8 与 图 3-9 中 的 二 分 类 直线 的 位 置 ,可 以 发 现 使 用 Tensorflow A E X £X TE 
分 类 器 也 可 以 取得 与 使 用 Scikit-learn 相近 的 效果 。 也 许 对 于 机 器 学 习 背 景 知识 了 解 不 


多 的 读者 来 讲 , 这 样 按 照 理论 和 算法 一 点 点 搭建 学 习 系 统 实 在 是 太 难 了 。 没 有 关系 ,我 们 
即将 介绍 另 一 个 对 Tensorflow 进一步 的 封装 ,以 求 与 Scikit-learn 的 使 用 接口 类 似 的 工 
ALA skflow 。 


skflow 非常 适合 于 熟悉 Scikit-learn 编程 接口 (API) 的 使 用 者 ,而 且 利 用 Tensorflow 
的 运算 架构 和 模块 封装 了 许多 经 典 的 机 器 学 习 模 型 ,如 线性 回归 器 .深度 全 连接 的 神经 网 


Cell Size 
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Clump Thickness 


图 3-8 使 用 Tensorflow Ë ZE X. — + £& FE 21 RSE E / RECTE SL ER 38 
肿瘤 ?数据 上 学 习 到 的 二 分 类 直线 ( 见 彩 图 ) 
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图 3-9 使 用 Scikit-learn 的 LogisticRegression 模型 训练 
得 到 的 二 分 类 直线 ( 见 彩 图 ) 
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络 (Deep Neural Network, ,向 称 DNN) 等 。 考 虑 到 代码 编写 风格 的 一 致 性 和 可 读 性 ,推荐 
在 今后 的 实践 中 使 用 skflow。 尽 管 如 此 ,skflow 仍然 支持 使 用 Tensorflow 的 基础 算 子 
自 定义 学 习 流 程 ,特别 是 用 于 搭建 如 图 3-10( 来 自 https://www. tensorflow. org/) 所 示 
的 神经 网 络 。 为 了 让 读者 更 好 地 理解 Tensorflow 以 及 skflow 中 的 人 工 神经 网 络 模 型 
(Artifical Neural Network) ,在 展示 如 何 实 践 skflow 之 前 , 先 介 绍 一 些 有 关 人 工 神 经 网 
络 的 发 展 历史 和 相关 知识 。 

神经 网 络 的 研究 起 源 于 20 世纪 50 一 60 年 代 。 那 个 时 候 还 没有 太 多 的 计算 机 科学 家 
参与 人 工 智 能 的 研究 , 青 加 上 人 类 对 计算 机 的 了 解 也 刚刚 开始 ,于 是 一 些 AI 的 先驱 者 期 
待 可 以 借鉴 一 些 人 类 神经 科学 的 研究 成 果 来 构建 人 工 智 能 。 一 些 研究 神经 元 的 生物 学 家 
发 现 了 神经 (大 脑 ) 信 息 传 递 的 大 致 工作 原理 , 如 图 3-11 所 示 ,神经 元 的 树 突 (Dendrite) 


Dendrite Axon terminal 
IR 轴 突 终端 


细胞 体 
[4 Cell body 


Schwann cell 
轴 突 Myelin sheath 


细胞 核 


Nucleus 


图 3-10 Google Tensorflow 搭建 神经 网 络 图 3-11 神经 元 的 基本 结构 和 组 成 


接收 其 他 神经 元 传递 过 来 的 信息 ,然后 神经 细胞 体 对 信息 进行 加 工 之 后 ,会 通过 轴 突 
(Axon) 把 加 工 后 的 信息 传递 到 轴 突 终端 (Axon terminal) 然 后 再 传递 给 其 他 神经 元 的 树 
突 。 就 这 样 , 大 量 的 神经 元 就 连接 成 了 一 个 结构 复杂 的 神经 网 络 。 

于 是 ,早期 人 工 智能 的 研究 人 员 打 算 先 从 计算 机 模拟 人 类 神经 元 的 角度 切入 ,比较 具 
有 代表 性 的 是 弗兰克 。 罗 森 布 拉 特 (Frank Rosenblatt) 的 感知 机 (Perceptron ) 模 
型 [16]。 几 乎 和 生物 学 上 的 神经 元 类 似 , 感 知 机 的 计算 结构 如 图 3-12 所 示 ,包括 n AE 
入 信号 (Input) x =< zz 二、 对 应 的 参数 (Parameters) 回 量 w =< w sw ,…， 
w, > 和 截 距 5. 输出 (Output) 信 号 y F, 


Input x 


Parameters w, b 


Output y 
> sign 


图 3-12 罗 森 布 拉 特 感知 机 (Perceptron) 模 型 


罗 森 布 拉 特 感知 机 (Perceptron) 在 具体 运算 上 采用 线性 加 权 求 和 的 方式 处 理 输入 信 
号 , 即 

y=sign(w'x+b) (22) 
式 (22) 为 了 模拟 神经 元 的 行为 ,定义 了 式 (23) 所 示 的 激活 (符号 ) 函 数 ,由 此 我 们 可 以 知道 

感知 机 最 终 会 产生 两 种 离散 数值 的 输出 (Output) 信 号 : 
sign(z)= Ms iin (23) 

=l; £0 

事实 上 , Rosenblatt 的 感知 机 (Perceptron) 模 型 最 大 的 贡献 并 不 在 于 其 对 神经 元 的 
结构 的 模拟 ,而 是 Rosenblatt 本 人 设计 了 一 和 套 算法 ,使 得 感知 机 可 以 通过 不 断 地 根据 训 
练 数据 更 新 参数 ,达到 具备 线性 二 分 类 模型 的 学 习 能 力 。 这 个 算法 以 现在 的 眼光 看 来 与 
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随机 梯度 下 降 (SGD) 方 法 很 像 ,但 是 在 当时 可 谓 麦 动 一 时 ,也 极 大 地 调动 了 人 工 智 能 研究 
者 的 热情 。 因 为 这 实现 了 人 们 长 久 所 期 待 的 计算 机 具备 自 适 应 能 力 的 愿景 。 

不 过 好 景 不 长 ,MIT 人 工 智 能 实验 室 创 始 人 Marvin Minsky 和 Seymour 在 1969 年 
出 版 了 一 本 题名 为 《Perceptrons)》 的 书 ,其 中 严谨 地 分 析 了 感知 机 学 习 模 型 ;并 有 旦 使 用 异 
或 (XOR) 运 算 这 一 经 典 例子 ,道破 了 单 层 Perceptron 在 处 理 实 际 问 题 方面 的 局 限 性 。 下 
如 图 3-13 所 示 , 目 前 所 了 解 的 感知 机 模型 可 以 处 理 线性 二 分 类 问题 , 即 可 以 对 AND, 
NAND 以 及 OR 这 些 运算 产生 的 类 别 结 果 进 行 区 分 ;但 是 很 显然 ,我 们 无 论 如 何 也 无 法 
找到 一 条 二 维 空间 的 直线 用 来 分 割 XOR 所 产生 的 数据 点 。 


AND NAND OR XOR 
| BENI | | 
0 0 0 0 
0 I 0 | 0 | 0 I 
图 3-13 ”使 用 感知 机 区 分 并 (AND) , 5 3ECNAND) 或 (OR) 以 及 异 或 
(XOR) 运 算 所 产生 的 数据 ,图 片 摘 自 [8]( 见 彩 图 ) 


正 因为 Marvin Minsky 和 Seymour 的 这 本 著作 ,使 得 神经 网 络 的 研究 在 20 世纪 70 
年 代 陷 和 低潮。 实际 上 ,《Perceptrons》[17] 这 本 书 并 没有 完全 否定 单 层 感知 机 的 科学 贡 
献 ; 同 时 也 提 到 可 以 通过 笃 加 多 层 感知 机 (Multi-layer Perceptrons) 来 完成 对 异 或 (XOR) 
运算 的 非 线 性 拟 合 。 然 而 ,之 所 以 大 家 丧失 了 继续 对 感知 机 研究 的 热情 ,主要 是 因为 许多 
人 发 现 无 法 再 继续 使 用 Rosenblatt 的 学 习 算 法 作用 在 多 层 感知 机 上 。 一 方面 ,历史 证 明 
设计 并 验证 一 套 有 效 的 新 算法 总 是 要 花费 长 达 几 年 甚至 十 几 年 的 时 间 ; 另 一 方面 ,就 如 之 
前 所 提 到 的 ,虽然 Rosenblatt 提出 的 算法 与 随机 梯度 下 降 (SGD) 法 在 形式 上 类 似 , 但 是 
XX (230 这 种 分 段 函 数 导 致 无 法 平滑 地 求 得 梯度 。 

不 过 ,依然 有 人 在 这 场 科 人 研 寒冬 中 坚持 了 下 来 ,他 们 是 David Rumelhart. Geoffrey 
Hinton 和 Ronald Williams, JÁ 1985 年 开始 ,这 三 位 科学 家 所 发 表 的 一 系列 论文 [18. 
19] 重新 激发 了 如 图 3-14 所 示 的 多 层 感 知 机 (人 工 神 经 网 络 ) 的 研究 热潮 。 这 些 论文 重 
点 阐述 了 如 何 使 用 诸如 逻辑 斯 蒂 (Logistic Function) 这 类 连续 平滑 的 函数 替换 原 有 分 段 
的 符号 函数 (Sign) ,作为 激发 困 数 ;以 及 如 何 使 用 回溯 (Back Propagating, BP) $E 1E 3x J: 
更 新 参数 。 

接 下 来 的 几 年 ,从 事 人 工 神 经 网 络 (Artificial Neural Network, ANN) 研 究 的 科研 人 
员 渐 渐 隐 人 了 两 难 的 境地 : 一 方面 大 家 越发 觉得 隐藏 导数 (hidden layers) 更 多 的 神经 网 
络 可 以 表达 更 加 复杂 的 现实 数据 ,使 深度 神经 网 络 拥有 更 高 的 性 能 ;但 是 另 一 方面 ,一 旦 
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图 3-14 多 层 感 知 机 (人 工 神经 网 络 ) 模 型 架构 ,图 片 摘自 于 L21j 


隐藏 层 数 增加 得 过 多 ,BP 算法 在 回溯 误 差 时 衰退 得 越 明 显 , 其 至 无 法 对 输出 层 (input 
layer) 参 数 的 更 新 起 到 明显 作用 ,而 且 更 容易 让 模型 优化 陷入 局 部 最 优 解 。 

2006 年 ,Hinton 教授 的 人 研究 团队 表 次 发 表 论 文 [201] 利用 预 训练 (Pre-training) 的 方 
式 缓 解 了 局 部 最 优 解 的 问题 ,将 隐藏 层 的 数量 推进 到 7 层 , 并 由 此 掀起 了 深度 学 习 (Deep 
Learning) 的 热潮 。 

之 所 以 介绍 上 述 关 于 神经 网 络 的 基础 知识 和 发 展 历史 ,是 因为 笔者 即将 要 在 代码 76 
中 使 用 skflow 中 的 深度 神经 网 络 (DNN) 对 “美国 波士顿 房价 ”进行 回归 预测 ,并 且 与 集 
成 回归 模型 对 比 性 能 差异 ;同时 ,也 方便 读者 理解 代码 76 中 对 DNN 的 各 项 配置 。 


| 代码 76: 使 用 skflow 内 置 的 LinearRegressor、DNN 以 及 Scikit-learn 中 的 集成 
: 回归 模型 对 “美国 波士顿 房价 ”数据 进行 回归 预测 


>>># 一 次 性 导入 skleam 中 的 多 个 模块 。 
>>> fram sklearn import datasets, metrics, preprocessing, cross validation 


>>># 使 用 datasets.load boston 读 取 美 国 波士顿 房价 数据 。 
>>> boston= datasets.load boston () 


>>># 获 取 房 屋 数 据 特 征 以 及 对 应 房价 。 
>>>X, y-boston.data, boston.target 


>>># 分 割 数据 ,随机 采样 25% 作 为 测试 样本 。 : 
>>>X train, X test, y train, y test- cross validation.train test split (X, y, test size- 0.25, : 
random state- 33) : 
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>>># 对 数据 特征 进行 标准 化 处 理 。 

>>> scaler= preprocessing.Standardscaler () 
>>>X train-scaler.fit transfom(X train) 
>>>X test= scaler.transform( test) 


>>># 导 人 skflow, 
>>> import skflow 


>>> #Í# FA skflow 的 LinearRegressor, 

>>> tf_lr= skflow. TensorFlowLinearRegnressor (steps= 10000, learning rate= 0.01, batch size- 50) 
»»»tf lr.fit(X train, y train) 

>>>tf lr y predict- tf lr.predict(X test) 


>>># 输 出 skflow 中 LinearRegressor 模型 的 回归 性 能 。 : 
>>> print "The mean absoluate error of Tensorflow Linear Regressor cn boston dataset is', metrics.mean 
absolute error(tf lr y predict, y test) | 
>>> print "The mean squared error of Tensorflow Linear Regressor on boston dataset is', metrics.mean ` 
Squared error(tf lr y predict, y test) | 
>>> print "The R- squared value of Tensorflow Linear Regressor on boston dataset is', metrics.r2 score 
(t£ lr y predict, y test) 3 


Step #1, avg. loss: 595.96338 

Step #1001, epoch #125, avg. loss: 105.57941 

Step #2001, epoch #250, avg. loss: 21.24366 

Step #3001, epoch # 375, avg. loss: 21.37193 

Step # 4001, epoch #500, avg. loss: 21.29527 

Step #5001, epoch # 625, avg. loss: 21.21216 

Step # 6001, epoch #750, avg. loss: 21.18802 

Step #7001, epoch # 875, avg. loss: 21.19276 

Step #8001, epoch #1000, avg. loss: 21.28822 

Step # 9001, epoch #1125, avg. loss: 21.17799 

The mean absoluate error of Tensorflow Linear Regressor on boston dataset is 3.51069934875 
The mean squared error of Tensorflow Linear Fegressor cn boston dataset is 25.1175995458 
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The R- squared value of Tensorflow Linear Regressor cn boston dataset is 0.620007674595 


>>> FA skflow BJ INNRegressor, 并 且 注 意 其 每 个 隐 层 特征 数量 的 配置 。 

>>>tf dm regressor- skflow.TensorFlow[NNRegressor (hidden units- [100, 40], 
steps= 10000, learning rate- 0.01, batch size- 50) 

>>>tf dnn regressor.fit(X train, y train) 

>>> tf dm regressor y predict- tf dm regressor.predict(X test) 


>>># 输 出 skflow 中 INNRegressor 模 型 的 回归 性 能 。 
>>> print "Ihe mean absoluate error of Tensorflow ONN Regressor on boston dataset is', metrics.mean : 
absolute error(tf dnn regressor y predict, y test) | 
>>> print 'The mean squared error of Tensorflow ON Regressor on boston dataset is', metrics.mean : 
Squared error (tf dnn regressor y predict, y test) | 
»»»print "The R- squared value of Tensorflow INN Regressor on boston dataset is', metrics.r2 score(tf | 
.dnn regressor y predict, y test) : 


Step #1, avg. loss: 640.79572 

Step #1001, epoch #125, avg. loss: 25.67079 

Step # 2001, epoch # 250, avg. loss: 3.89196 

Step # 3001, epoch # 375, avg. loss: 2.48694 

Step # 4001, epoch # 500, avg. loss: 1.91246 

Step # 5001, epoch # &25, avg. loss: 1.62935 

Step # 6001, epoch # 750, avg. loss: 1.45105 

Step # 7001, epoch # 875, avg. loss: 1.30371 

Step # 8001, epoch # 1000, avg. loss: 1.20998 

Step # 9001, epoch # 1125, avg. loss: 1.12960 

The mean absoluate error of Tensorflow ONN Fegressor cn boston dataset is 2.52779822988 
The mean squared error of Tensorflow ON Regressor on boston dataset is 14.2553529174 
The R- squared value of Tensorflow ONN Fegressor on boston dataset is 0.803518644048 


>>> #Í# FA Scikit- learn 的 RandauForestRegressor, 
>>> from skleam.ensenble import RandomForestRegressor 


>>> rfr= RandamPorestRegressor () 
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>>> rfr.fit(@ train, y train) 
>>>rfr y predict- rfr.predict (X test) 


>>># 输 出 Scikit 中 RandamForestRegressor 模型 的 回归 性 能 。 
>>> print "The mean absoluate error of Sklearn Random Forest Regressor on boston dataset is', metrics. : 
mean absolute error(rfr y predict, y test) | 
>>> print "Ihe mean squared error of Sklearn Randam Forest Regressor on boston dataset is', metrics. l 
mean squared error (rfr y predict, y test) | 
>>> print "The R- squared value of Sklearn Random Forest Regressor on boston dataset is', metrics.r2 - | 
Score(rfr y predict, y test) : 


The mean absoluate error of Sklearn Randam Forest Regressor cn boston dataset is 2.50771653543 
The mean squared error of Skleam Random Forest Regressor on boston dataset is 14.3741984252 
The R- squared value of Sklearn Randan Forest Regressor on boston dataset is 0.796699065196 


` 
` 
. 
` 
` 
` 
` 
` 
` 
` 
. 
` 
p 


通过 观察 代码 76 的 一 系列 输出 ,可 以 对 比 发 现 深度 神经 网 络 的 确 可 以 表现 出 更 高 的 
性 能 。 但 是 ,需要 提醒 读者 的 是 , 越 是 具备 描述 复杂 数据 的 强力 模型 , 越 容 易 在 训练 时 陷 
入 过 拟 合 COverfitting)。 这 一 点 ,请 读者 在 配置 DNN 的 层 数 和 每 层 特征 元 的 数量 时 要 特 
别 注意 。 


pss SANE 


TERRA TILAR J BAY, ,并 且 把 他 们 真正 用 于 实践 的 读者 而 言 ,这 一 草 的 内 
容 是 必 不 可 少 的 。 事 实 上 ,不 论 是 对 数据 的 预 处 理 , 还 是 对 于 模型 参数 的 限制 以 及 超 参 数 
的 调 优 ,甚至 是 使 用 更 为 强力 的 模型 与 框架 ,都 很 有 可 能 显著 地 提升 性 能 。 尽 管 从 科学 研 
究 的 角度 ,许多 人 关注 如 何 设计 模型 与 编写 训练 参数 的 算法 ;但 是 ,作为 工业 界 的 从 业 人 
员 和 机 需 学 习 任 务 的 实践 者 ,更 加 注重 如 何 最 大 限度 地 发 挥 既 有 模型 在 特定 数据 分 析 任 
务 中 的 性 能 。 

因 篇 幅 限 制 ,无 法 逐一 对 介绍 的 新 模型 进行 性 能 提升 的 实践 ,和 希望 感 兴趣 的 读者 参考 
本 章节 的 示例 代码 http://pan. baidu. com/s/1dENAUTr 以 及 http://pan. baidu. com/ 
s/1mhQe4g4 进一步 学 习 , 并 欢迎 致 信 讨 论 。 


如 果 读 者 已 经 阅读 到 这 一 个 章节 ,那么 非常 高 兴 地 通知 您 : 截至 目前 ,您 所 学 习 到 的 
理论 技术 已 经 足以 应 对 现实 生活 中 常见 的 问题 。 因 此 ,本 书 的 最 后 一 个 章节 将 带领 读者 
正式 进入 机 器 学 习 的 竞赛 实战 。 我 们 选取 目前 世界 上 最 为 流行 ,同时 也 是 认可 度 最 高 、 参 
与 人 数 最 多 的 线 上 竞赛 平台 KaggleChttps://www. kaggle. com/) ;并 且 将 逐步 教会 大 家 
如 何 使 用 学 习 过 的 模型 和 编程 技巧 挑战 业界 IT 公司 、 科 研 院 所 在 Kaggle 上 发 布 的 若干 
机 器 学 习 任务 。 


n zi Kaggle 平 台 简介 


Kaggle 是 当前 世界 上 最 为 流行 的 ,采用 众 包 (CCrowdsouring) 策 略 ,为 科技 公司 、 研 究 
院 所 乃至 高 校 课程 提供 数据 分 析 与 预测 模型 的 竞赛 平台 。 该 平台 成 立 于 2010 年 4 月 ,由 
现任 CEO 的 Anthony Goldboom 等 人 创立 。 公 司 总 部 设 在 美国 加 州 旧 金山 市 。 

Kaggle 平 台 设 立 的 宗旨 在 于 : 汇聚 全 世界 从 事 数据 分 析 与 预测 的 专家 以 及 兴趣 爱 
好 者 的 集体 智慧 ,利用 公开 数据 竞赛 的 方式 ,为 科技 公司 .研究 院 所 和 高 校 课 程 中 的 研发 
课题 ,提供 有 效 的 解决 方案 。 这 一 初 囊 使 得 问题 提出 者 与 解决 者 获得 了 双 说 。 

一 方面 ,许多 科技 公司 、 人 研究 院 和 高 校 拥有 大 量 的 数据 分 析 任 务 和 研发 课题 。 如 果 仅 
仅 依靠 有 限 的 内 部 研究 人 员 处 理 和 分 析 ;不 但 耗费 大 量 的 时 间 , 而 且 支 付 给 这 些 拥有 博士 
学 位 的 研究 人 员 的 薪资 也 是 极其 高 昂 的 。 这 也 是 为 什么 只 有 少数 实力 雄厚 的 高 新 科技 公 
司 拥有 内 部 的 研究 院 , 如 Google Research, Microsoft Research .百度 深度 学 习 研 究 院 等 
等 。 如 果 仅 仅 拿 出 一 小 部 分 奖金 (迄今 为 止 ,Kaggle 平台 上 最 常见 的 悬赏 是 $ 50 000, K 
约 是 一 位 在 美国 IT 企业 工作 的 普通 职位 科研 人 员 一 个 季度 的 薪水 ), 便 可 以 向 全 世界 的 
聪明 人 征集 解决 方案 , 那 何 乐 而 不 为 呢 ? 

男 一 方面 , 越 来 越 多 有 从 事 数据 分 析 与 预测 工作 意愿 的 兴趣 爱好 者 ,因为 难以 获得 大 
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量 可 供 分 析 的 数据 ,使 得 日 己 的 才华 难以 施展 。 造 成 这 一 问题 的 主要 原因 在 于 , 科 人 研 机 构 
和 大 型 企业 非常 看 重 数据 的 价值 ,特别 是 那些 和 目 己 主流 业务 相关 的 数据 。 比 如 ,Google 
服务 器 上 所 存储 的 全 世界 互联 网 用 户 的 搜索 日 志 。 对 于 外 部 个 体 的 兴趣 爱好 者 ,要 想 获 
得 这 些 企业 和 科研 机 构 的 数据 几乎 是 不 可 能 的 事 。 但 是 ,如 果 有 一 个 像 Kaggle 这 样 著名 
的 大 型 平台 , 随 着 这 上 面 聚 拢 的 兴趣 爱好 者 甚至 行业 专家 越 来 越 多 ,大 型 企业 和 科研 机 构 
也 会 逐渐 信赖 这 些 参 赛 者 ,并 且 放 心地 提供 一 些 重 要 数据 。 

如 果 读 者 是 第 一 次 登录 Kaggle 平台 ,如 图 4-1 所 示 , 那 么 您 可 以 查阅 所 有 的 苋 赛 资 
料 , 只 是 无 法 下 载 数据 和 提交 结果 。 


Welcome to Kaggle's data science PR 9 $ ili 
competitions. 


Download Build Submit 
New to Data Science? 


Tutorials on the Titanic competition » Choose a competition & Build a model using Upload your >d ) 
; Kagglt 

Want to learn from other's code? 

Kaggler's top rated scripts » 


Active Competitions Active Competitions 


All Competitions 


Second Annual Data Science Bowl 55 days 
imo Transf 4 We Diagnose Heart Di ， 3S1 teams 
transtormming How We agnose ead iseast E 
Cervical Cancer Screening ® 13 days 
4 teams 
— te ay Comp Help prevent cervical cancer by identifying at-risk populations $100,000 
p The Allen Al Science Challenge 25 days 
Is del smarter th gth zrader? 675 teams 
; your model smarter than an &th grader peii 
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如 果 已 经 注册 一 个 Kaggle 账户 并 且 通 过 邮箱 验证 之 后 , 便 可 以 选择 其 中 一 个 苋 

赛 了 ,并 且 按 照 如 下 的 流程 参与 即 可 。 
。 下 载 数 据 (Download) : 几乎 所 有 类 型 的 Kaggle 项 目 都 会 在 线 提供 数据 下 载 。 并 
目 ,如 图 4-2 所 示 , 用 户 需 要 在 第 一 次 下 载 数据 的 时 候选 择 接受 苋 赛 要 求 的 条 球 ， 


D 拓展 小 贴 士 32: 平台 上 有 正在 进行 的 竞赛 和 已 经 完成 的 竞赛 两 种 类 型 。 对 于 正在 进行 的 竞赛 ,只 要 参与 并 且 提 交 过 结果 ,都 会 在 
账户 中 有 相应 记录 ;同样 可 以 选择 已 经 完成 的 竞赛 ,只 是 不 会 对 您 在 平台 的 积分 有 任何 贡献 。 


否则 无 法 下 载 数据 。 
Host Competitions Datasets Scripts Jobs Community " Miao Fan 
$30,000 - 118 teams 
BNP Paribas Cardif Claims Management 
Merger and 1st Subm 
CARDIF Wed 3 Feb 2016 Mon 18 Apr 2016 (2 mon 

Dashboard Competition Details > Getthe Data > Make a submission 
Home fi 

Data s Data Files 

Make a submission 区 
Information 9 D 

Description LLL You must accept this competition's rules 

Evaluati DIS 

neat before you'll be able to download data files. 

Prizes test. CSV "pte " p s " H 

About BNP Paribas Cardif By clicking on the "I understand and accept" button below, 

Timeline ri C you are indicating that you agree to be bound by the rules. 
Forum * 
Scripts š You ore p lunderstand and accept !donotaccept 

New Script Aes 

New Notebook Janabies are caresoricar, there YO oraret vartasies. — | 
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。 搭建 模型 (Build) : 如 果 已 经 在 目 己 的 电脑 上 完整 配置 了 搭建 模型 所 需要 的 编程 
环境 和 工具 包 , 或 者 拥有 运算 能 力 更 加 强大 ,资源 更 加 丰富 的 服务 硕 平 台 ; 那 么 ， 
在 本 地 计算 机 上 设计 学 习 模 型 无 疑 是 一 个 好 的 选择 。 但 是 ,如 果 手 头 没有 配置 完 
善 的 运算 设备 的 话 ,Kaggle 则 为 您 提供 了 可 以 线 上 编程 的 云 平台 。Kaggle Wa 
平台 支持 多 种 适合 建 模 的 编程 语言 ,如 图 4-3 所 示 , 包 括 比较 流行 的 Python, R 
等 ;并 且 这 个 平台 无 一 例外 地 安装 了 所 有 本 书 中 提 到 的 工具 包 。 美 中 不 足 的 是 ， 
当下 这 个 平台 无 法 为 每 位 用 户 提 供 过 多 的 计算 资源 ,普通 账户 只 能 使 用 512MB 
的 硬盘 空间 ,而 且 单 个 运算 脚本 最 多 可 以 运行 20 分 钟 。 

。 提交 结果 (Submit) : Kaggle 不 会 要 求 参 赛 者 提交 编程 源 代码 ,只 需 根 据 限定 的 格 
式 上 交 最 终 预测 结果 的 文件 即 可 。 一 般 情况 下 ,每 个 苋 赛 者 独立 的 格式 范例 ,并 
日 与 训练 数据 等 一 起 提供 给 参赛 者 下 载 。 参 赛 者 在 第 一 次 提交 结果 文件 的 时 候 ， 
Kaggle 会 询问 选手 参与 苑 赛 的 组 队 方 式 ,如 图 4-4 所 示 , 即 个 人 还 是 团队 。 一 旦 
提交 的 文件 符合 限定 的 格式 ,平台 会 根据 目标 竞赛 所 设计 的 评估 程序 ,对 选手 当 
前 提交 的 结果 即时 做 出 评价 和 排名 ;并且 ,如 图 4-5 所 示 , 多 数 苑 赛 都 会 限制 参赛 
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Host Competitions Datasets Scripts Jobs 
E 
- . 
ow Enter a title... 
Dashboard 
BNP PARIBAS 
CARDIF 

script.R R v Convert to Notebook | Run Script 
1 3 This R environment comes with all of , aS well as many other helpful packages 
2 4 The environment is defined by the ke image: https: //github.com/kaggle/docker-rstats 
3 # For example, here's several helpful n 
4 Python 
5  library(ggplot2) # Data visualization 
6  library(readr) 4 CSV file I/O, e.g. tt Julia n 
7 
8 +# Input data files are available in tt ctory - 
9 3i For example, running this (by clicki RMarkdown Shift+Enter) will list the files in the input dire 
18 
11  system("ls ../input") 
12 

# Any results you write to the current directory are saved as output. 
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$30.000。120 teams 


BNP Paribas Cardif Claims Management 


Merger and 1st Submission Deadline 
° 


Wed 3 Feb 2016 Mon 18 Apr 2016 (2 months to go) 


Submit to BNP Paribas Cardif Claims Management 


Compete as myself Compete as a team 


(You can always add team 
members later.) 


ET 


图 4-4 Kagge # 3€ £8 DJ 7; 3 3X $E 


$30,000 * 120 teams 


BNP Paribas Cardif Claims Management 


Lj 
Wed 3 Feb 2016 Mon 18 Apr 2016 (2 months to go) 


Merger and 1st Submission Deadlin 
og ——— ——oc 


Competition Details » Getthe Data » Make a submission 


Make a submission 


E You have 5 entries today. This resets 2.1 hours from now (00:00 UTC). 


& 
File Format 


Click or drop your submission here pe 
in CSV format. You can 
upload this in a zip/gz/rar/7z 
archive if you prefer. 


图 4-5 Kaggle 竞赛 结果 提交 页 面 


者 每 天 提交 结果 的 次 数 , 这 一 点 布 望 读者 留意 。 当 竞赛 结束 之 后 ,Kaggle 会 以 每 
位 参赛 者 历史 最 好 成 绩 做 出 最 终 的 排名 。 
按照 上 述 三 个 步骤 便 可 以 尽情 在 Kaggle 上 实战 了 。 在 后 续 的 章节 里 ,将 介绍 三 个 长 
期 在 Kaggle 平台 上 挂 载 的 实践 任务 ,它们 是 : 4.2 Titanic 需 难 乘客 预测 .4. 3 IMDB 影评 
得 分 估计 以 及 4.4 MNIST 手写 体 数字 图 片 识 别 。 同 时 为 了 让 大 家 更 快 熟悉 3.2 节 介 绍 
过 的 流行 机 器 学 习 模 型 和 框架 ,我们 在 解决 这 些 帝 赛 任务 的 时 候 不 仅 使 用 了 Scikit-learn 
中 的 经 典 模型 ,而 且 分 别 在 “4. 2 Titanic 需 难 乘客 预测 ” 节 中 额外 采用 了 XGBoost 模型 ; 
在 “4. 3 IMDB 影评 得 分 估计 ” 节 中 使 用 了 Word2Vec 词 向 量 技术 ;甚至 在 “4.4 MNIST F 
写 体 数字 图 片 识别 ” 节 使 用 了 Google Tensorflow 的 深度 学 习 框 架 。 
尽管 因 能 力 所 限 ,我们 在 书 中 的 代码 无 法 帮助 读者 们 取得 理想 的 欧 赛 名 次 ;但 是 , 笔 
者 由 囊 地 和 硕 望 这 些 代 码 至 少 可 以 起 到 “抛砖引玉 ?的 作用 ,为 各 位 今后 更 加 出 色 的 实战 编 
程 提供 些许 参考 ， 
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与 “2. 1. 1.5 决策 树 ” 节 所 探索 的 任务 一 样 ,Kaggle 也 在 其 平台 上 发 布 了 “泰坦 尼克 
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号 众 难 乘客 ”的 预测 任务 ;并 且 这 个 预测 问题 一 直 作为 其 平台 的 教学 任务 , 供 初学 者 熟悉 
Kaggle 的 苋 赛 流 程 。 时 至 今日 已 有 几 千 名 选手 设计 了 他 们 的 模型 ,同时 网 站 的 上 自动 评估 
系统 也 对 他 们 所 提交 的 结果 做 了 测试 ,并 且 发 布 了 排名 。 

因此 ,作者 打算 带领 读者 ,通过 这 项 兼 具 有 纪念 和 缅怀 意义 的 任务 ,来 完成 一 次 真正 
的 实战 演练 ,并 与 他 人 同人 台 苋 技 。 这 跟 之 前 我 们 在 书 中 的 实践 略 有 不 同 的 是 , Kaggle 上 
的 实战 问题 都 不 会 提供 测试 集 的 正确 答案 ,包括 这 项 教学 任务 。 所 以 ,笔者 期 竺 大 家 不 断 
地 答 试 书 中 提 及 的 机 需 学 习 模 型 ,并且 竭 尽 所 能 地 优化 它们 。 只 有 这 样 ,朋友 们 才能 从 不 
懈 的 实战 中 积累 经 验 ,最 终 达 到 熟练 掌握 机 器 学 习 的 应 用 技巧 快速 构建 机 强 学 习 系 统 的 
目的 。 

正如 图 4-6 所 示 , 在 Titanic 需 难 乘客 预测 任务 的 苋 赛 主页 的 左边 栏 (Dashboard) ,您 
不 仅 可 以 查阅 当前 竞赛 的 信息 (Information) , £215 7 9€ MY i 35 (Description) , HI fap PE ffr HE 
A85 IR (Evaluation) 竞赛 规则 (Rules) 还 有 奖金 悬赏 的 细节 (Prizes) ;还 能 够 在 Data 9 [fj 
中 下 载 必要 的 数据 ,进而 在 Make a submission 页 面 提交 结果 。 


Host Competitions Datasets Scripts Jobs Community * Miao Fan Logout 


Knowledge * 3,718 teams 


Titanic: Machine Learning from Disaster 


QS 
Fri 28 Sep 2012 sat 31 Dec 2016(11 months to go) 


Dashboard Competition Details > Get the Data » Make a submission 
Home ^ 
eee ei Predict survival on the Titanic using Excel, 


Python, R & Random Forests 


Information 9 
Descriptic 
PES See best practice code and explore visualizations of the Titanic dataset on Kaggle 
uies 
Prizes Scripts. Submit directly to the competition, no data download or local environment 
Frequently Asked Questions needed! 
Further Reading / Watchin 
etting Started With Excel The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On 
etting Started With Python ñ . ' š : š - i 
E = meee Dus April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an 
setting Started With Pyth.. - 
etting Started With Rand... iceberg, killing 1502 out of 2224 passengers and crew. This sensational tragedy 
New: Getting Started with R shocked the international community and led to better safety regulations for ships. 
Submission Instructions 


图 4-6 Titanic Wë XE IE # TL JU 3E 3E + m D 


° 下 载 数 据 : 虽然 我 们 可 以 在 Data 页 面 看 到 7 个 文件 下 载 。 但 是 ,用 于 竞赛 的 数据 
只 有 train. csv(59. 76KB) 和 test. csv(27. 96KB) 文 件 。 笔 者 这 里 下 载 这 两 份 数据 


(D https://www. kaggle. com/c/titanic 


到 本 地 计算 机 的 Datasets/Titanic 文件 夹 下 。 

。 搭建 模型 : 接 下 来 ,读者 可 以 有 两 种 选择 编写 代码 ,一 种 是 在 自己 的 本 地 计算 机 
编写 代码 ; 男 一 种 是 直接 在 Kaggle 平台 上 编写 代码 并 在 线 运 行 。 对 于 后 者 ,您 只 
需 在 左边 栏 点 击 New Script, 进 入 类 似 于 图 4-2 所 示 的 Kaggle 在 线 编程 页 面 , 按 
照 所 给 的 代码 范例 ,并 注意 文件 读 写 的 正确 路 径 即 可 。 这 里 只 给 出 本 地 IPython 
Notebook 中 运行 的 代码 。 如 下 面 的 代码 77 所 示 , 不 仅 使 用 随机 森林 分 类 器 与 
XGBoost 模型 ,而 且 均 采用 交叉 验证 的 方法 搜索 最 优 的 超 参 数组 合 。 


| 代码 77. Titanic 困难 乘客 预测 竞赛 编码 示例 


>>> # S A pandas 方 便 数据 读 取 和 预 处 理 。 
>>> import pandas as pd 


>>># 分 别 对 训练 和 测试 数据 从 本 地 进行 读 取 。 

>>> trair pd.read csv('../Datasets/titanic/train.csv') 

>>> test=pd.read csv('../Datasets/titanic/test .Csv') 

>>># 先 分 别 输 出 训练 与 测试 数据 的 基本 信息 。 这 是 一 个 好 习惯 ,可 以 对 数据 的 规模 、 各 个 特征 
的 数据 类 型 以 及 是 否 有 缺失 等 ,有 一 个 总 体 的 了 解 。 

>>> print train.info() 

>>> print test.info() 


«class 'pandas.core.frame.DataFrame'» 
Inté4Index: 891 entries, 0 to 890 

Data columns (total 12 colums): 
PassengerId 891 non- null int64 


Survived 891 non- null int64 
Fclass 891 non- null int64 
Name 891 non- null cbject 
Sex 891 non- null cbject 
Age 714 non- null floate4 
SibSp 891 non- null int64 
Parch 891 non- null int64 
Ticket 891 non- null cbject 
Fare 891 non- null floate4 
Cabin 204 non- null dbject 
Enbarked 889 non- null d»ject 


dtypes: float64 (2), inte4(5), doject (5) 
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memory usage: 90.5+ KB 
None 


< class 'pandas.core.frame.DataFrame'^ 
Inté4Index: 418 entries, 0 to 417 

Data colums (total 11 colums): 
FassengerId 418 nar- null int64 
Fclass 418 non- mull int64 

Name 418 noan- null cbject 

Sex 418 non- null dbject 

Age 332 non- null floate4 

SibSp 418 non- null int64 

Parch 418 non- null int64 

Ticket 418 non- mull doject 

Fare 417 nar- mull float64 

Cabin 91 non- mull cbject 
Erbarked 418 non- null cbject 

dtypes: floate4(2), int64(4), dbject (5) 
memory usage: 39.2* KB 

None 


>>># 按 照 我 们 之 前 对 Titanic 事 件 的 经 验 , 人 工 选取 对 预测 有 效 的 特征 。 
>>> selected features= ['Pclass', 'Sex', 'Age', 'Enbarked', 'SibSp', 'Parch','Fare'] 


>>> X train-train[selected features] 
>>>X test- test[selected features] 


>>> y train train['Survived'] 


>>># 通 过 我 们 之 前 对 数据 的 总 体 观察 ,得 知 Erbarked 特 征 存在 缺失 值 ,需要 补 完 。 
>>> print X train['Eribarked'] .value counts () 
>>> print X test['Erbarked'] .value counts () 


S 644 
C 168 
Q T 


S 270 
C 102 
Q 46 


Name: Enbarked, dtype: int64 


>>># 对 于 Enbarkesd 这 种 类 别 型 的 特征 ,我们 使 用 出 现 频率 最 高 的 特征 值 来 填充 ， 这 也 是 相对 可 以 | 
减少 引入 误差 的 一 种 填充 方法 。 


>>>X train['Erbarked'].fillna('S', inplace- True) 
>>>X test['Erbarked'].fillna('S', inplace- True) 


>>># 而 对 于 age 这 种 数值 类 型 的 特征 ,我 们 习惯 使 用 求 平均 值 或 者 中 位 数 来 填充 缺失 值 ， 也 是 相 
对 可 以 减少 引入 误差 的 一 种 填充 方法 。 

>>>X train['Age'].fillna@ train['Age'] .mean(), inplace- True) 

>>>X_test['Age'] .fillna X test['Age'].mean(), inplace- True) 

>>>X test['Fare'].fillna@ test['Fare'].mean(), inplace= True) 


>>># 重 新 对 处 理 后 的 训练 和 测试 数据 进行 查验 ,发 现 一 切 就 绪 。 
>>>X train.info() 


< class 'pandas.core. frame. DataFrame'> 
Inté4Index: 891 entries, 0 to 890 
Data columns (total 7 colums): 


Pclass 891 non- null int64 
Sex 891 non- null dbject 
Age 891 non- null floaté4 
Erbarked 891 non- mill dbject 
SibSp 891 non- null int64 
Parch 891 non- null int64 
Fare 891 non- null float64 


dtypes: float64 (2), int64(3), cbject (2) 
memory usage: 55.74 KB 


>>>X test.info() 
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<class 'pPandas.core,. 人 ame.DataFrame'> 
Inté4Index: 418 entries, 0 to 417 

Data columns (total 7 colums): 

Pclass 418 noan- null int64 


Sex 418 non- null doject 
Age 418 non- null float64 
Enbarked 418 non- null cbject 
SibSp 418 non- null int64 
Parch 418 non- null int64 
Fare 418 non- null float64 


dtypes: float64(2), int64(3), doject (2) 
memory usage: 26.1+ KB 


>>> + FE F (EEX FB Dictvectorizer 对 特征 向 量化 。 
>>> fram sklearn.feature extraction import DictVectorizer 
>>> dict vec- DictVectorizer (sparse- False) 
>>>X train-dict vec.fit transform train.to dict (orient- 'record')) 
>>> dict vec.feature names _ 
['Age', 

"Enbarked- C', 

"Enbarked= Q', 

"Enbarked= S', 

'Fare', 

'Parch', 

'Pclass', 

'Sex- female', 

‘Sex=male', 

'Sibep'] 


>>>X test-dict vec.transfom(X test.to dict (orient= 'record')) 


>>> # M sklearn.ensanble rH 5$ À. RancrmForestC1assifier, 
>>> from sklearn.enserble import RandcmEbrestClassliflier 
>>># 使 用 默认 配置 初始 化 RandcmEorestclassifier。 

>>> rfc= RandmForestClassifier () 


>>># 从 流行 工具 包 xost $A XBclassifier 用 于 处 理 分 类 预测 问题 。 


>>> fram xgooost import XGBClassifier 


>>># 也 使 用 默认 配置 初始 化 xcgclassifier. 
>>> xgoc= XCBC1assifier () 


>>> fram skleam.cross validation import cross val score 

>>># 使 用 5 折 交 叉 验 证 的 方法 在 训练 集 上 分 别 对 默认 配置 的 RandomForestClassifier MA 
XcBClassifier 进行 性 能 评估 ,并 获得 平均 分 类 准确 性 的 得 分 。 

>>> cross val score(rfc, X train, y train, cv- 5) -mean () 

0.80591729091594499 

>>> cross val score (xzgbc, X train, y train, cv- 5) .mean () 

0.81824559798311003 


>>># 使 用 默认 配置 的 Fandauorestclassifier 进行 预测 操作 。 

>>> rfc. fit (X train,y train) 

>>> ric y predict- rfc.predict X test) 

>>> rfc submission pd.Datakrame (('Passengerld': test['PassengerId'], 'Survived': rfc y predict}) : 
>>># 将 默认 配置 的 FandcmEorestclassifier 对 测试 数据 的 预测 结果 存储 在 文件 rfc sumission. : 
csv 中 。 
>>> rfc sukmission.to csv('../Datasets/Titanic/rfc sukmission.csv', index- 

False) 


>>> + FERIA BOR xcəc1assifier 进行 预测 操作 。 

>>> xgoc.fit X train, y train) 

XGBClassifier(base score= 0.5, colsample bylevel=1, colsanple bytree=1, 
gme 0, learning rate= 0.1, max delta step=0, max depth= 3, 
min child weight- 1, missing- None, n estimators- 100, nthread-- 1, 
dbjective- 'binary:logistic', reg alpha- 0, reg lanbda- 1, 
Scale pos weight- 1, seed=0, silent- True, subsample- 1) 


>>> xgoc_y predict- xgbc.predict (X test) 

>>># 将 默认 配置 的 xcgclassifier 对 测试 数据 的 预测 结果 存储 在 文件 xgoc sümission 
cov tB, 

>>> xgoc_sukmissior= pd.DataFrame (( 'PassengerId' : test['PassengerId'], 

'Survived': xgoc y predict]) 

Xgoc sukmission.to csv('../Datasets/Titanic/xjoc submission.csv', index- 

False) 


: 164 : Pyhom 机 器 学 习 及 实践 


>>># 使 用 并 行 网 格 搜索 的 方式 寻找 更 好 的 超 参数 组 合 ,以 期 待 进一步 提高 xcBclassifier 的 预测 
性 能 。 : 
>>> fram sklearn.grid search import GridSearchcv 

>>> params- ('max depth':range (2, 7), 'n estimators':range(100, 1100, 200), 

"leaming rate": [0.05, 本 0.25. G5. T OF 


>>> xgoc_best= xGBClassifier () 
>>> gs= GridSeanchcv (xgoc_best, params, n jdos=-1, cv= 5, verbose- 1) 


>>> gs.fit (X train, y train) 


Fitting 5 folds for each of 125 candidates, totalling 625 fits 


[Parallel (n jdbs-- 1)]: Done 122 tasks | elapsed: 10.0s 
[Parallel (n jcbs=- 1)]: Done 278 tasks | elapsed:  21.7s 
[Parallel(n jdbs-- 1)]: Done 528 tasks | elapsed: 45.4s 


[Parallel(n jdbs-- 1)]: Done 625 out of 625 | elapsed: 54.8s finished 


GridSearchCv (c= 5, error score- 'raise', 
estimator= XGBClassifier (base score- 0.5, colsample bylevel=1, 
colsample bytree- 1, 
gamme 0, learning rate- 0.1, max delta step- 0, max depth 3, 
min child weight- 1, missing- None, n estimators- 100, nthread-- 1, 
dbjective- "hinary:logistic', reg alpha-0, reg lambde- 1, 
scale pos weight- 1, seed- 0, silent- True, subsample- 1), 
fit params- (), iid- True, n jdbs-- 1, : 
param grid- ('n estimators': [100, 300, 500, 700, 900], "learning rate': [0.05, 0.1, 0.25, 0.5, 1.: 
0], "mex depth': [2, 3, 4, 5, 6]), | 
pre dispatdr- '2* n jdbs', refit- True, scoring- None, verbose- 1) 


>>># 查 验 优化 之 后 的 XxcBclassifier 的 超 参数 配置 以 及 交叉 验证 的 准确 性 。 
>>> print gs.best score _ 

>>> print gs.best params _ 

0.835016835017 

('n estimators': 100, 'leaming rate': 0.1, ‘max depth’: 5) 


>>># 使 用 经 过 优化 超 参数 配置 的 xcaclassifier 对 测试 数据 的 预测 结果 存储 在 文件 xpo best 
sukmission.csv t 。 : 


>>> abe best y predict- gs.predict(X test) c T 
| >>> xgoc best submission= pd.DataFrame (( 'PassengerId': test ['PassengerId'], : 


例 提交 文件 的 格式 。 因 为 所 有 参赛 选手 所 提交 的 文件 ,都 会 在 网 站 后 人 台 由 程序 自动 按照 
Evaluation 中 的 评估 函数 进行 评价 ,而 且 稍 有 不 符合 格式 的 提交 文件 都 不 会 被 评估 程序 
所 考量 ,更 不 必 说 取得 竞赛 的 名 次 。 

按照 代码 77 所 设 定 的 输出 ,得 到 3 个 用 于 提交 预测 结果 的 文件 : rfc submission 
.csv,xgbc submission. csv 以 及 xgbc_ best submission. csv; 并且 如 图 4-7 所 示 ,Kaggle 
范 赛 平台 的 自动 测评 系统 给 出 了 上 述 3 个 提交 文件 的 最 终 性 能 表现 。 4-7 所 示 的 
Kaggle 测评 结果 也 许 有 些 出 乎 意料 ,我 们 原本 以 为 经 过 超 参 数 搜索 和 优化 之 后 的 模型 可 
以 取得 更 好 的 预测 性 能 ,但 是 事实 恰恰 相反 。 在 今后 的 实践 中 也 有 可 能 出 现 这 样 的 情况 ， 
究 甚 原因 是 因为 无 法 保证 现实 数据 都 来 源 于 同一 种 分 布 ,因此 尽管 模型 经 过 交叉 验证 和 
超人 参数 搜索 等 步骤 处 理 ,也 不 能 保证 在 所 有 情况 下 都 能 取得 更 高 的 性 能 。 


'Survived': xgbc best y predict]) 
>>> Xgoc best summission.to csv('../Datasets/Titanic/xgoc best sumüssicn.csv', index- False) 


Public 
Submission Files Score Selected? 


Wed, 03 Feb 2016 02:37:30 xgbc best submissio 0.74163 口 


Edit description n.csv 


Wed, 03 Feb 2016 02:35:45 xgbc_submission.csv 0.77512 


Edit description 


Wed, 03 Feb 2016 02:31:58 rfc submission.csv 0.75598 Ü) 


Edit description 


4-7 Titanic 坎 难 乘客 预测 竞赛 的 提交 结果 


n 43 IWB 影 评 得 分 估计 


“4.2 Titanic 霜 难 乘客 预测 ”一 节 所 使 用 的 数据 ,不 论 是 其 形式 还 是 规模 都 无 法 与 大 量 
现实 分 析 任 务 涉 及 的 数据 相当 。 因 此 在 本 节 ,如 图 4-8 所 示 , 我 们 男 选 Kaggle 上 的 一 项 
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REK.: IMDB 影评 得 分 估计 。 与 上 节 结 构 化 良好 的 小 规模 档案 数据 不 同 的 是 ,本 节 
的 耽 赛 任务 要 求 参赛 者 分 析 电 影评 论 网 站 的 留言 ,判断 每 条 留言 的 情感 倾向 。 不 仅 在 规 
模 上 要 比 泰坦 尼克 号 乘客 数据 大 上 几 个 量 级 ,而 且 原 始 数 据 也 不 及 之 前 的 格式 化 。 


Dashboard 


Home 
Data 
Make a submission 


Information 


Part 3: More Fun With Wo... 
Part 4: Comparing deep a 


Setting Up Your System 


What Is Deep Learning? 


lost 
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Completed * Knowledge * 578 teams 
Bag of Words Meets Bags of Popcorn 


Tue 9 Dec 2014 - Tue 30 Jun 2015 (7 months ago) 


Competitions Datasets Scripts Jobs Community ” Miao Fan Logout 


Competition Details > Getthe Data > Make a submission 


Use Google's Word2Vec for movie reviews 


In this tutorial competition, we dig a little "deeper" into sentiment analysis. Google's 
Word2Vec is a deep-learning inspired method that focuses on the meaning of words. 
Word2Vec attempts to understand meaning and semantic relationships among words. 
It works in a way that is similar to deep approaches, such as recurrent neural nets or 
deep neural nets, but is computationally more efficient. This tutorial focuses on 
Word2Vec for sentiment analysis. 


Sentiment analysis is a challenging subject in machine learning. People express their 


4-8 IMDB 影评 得 分 估计 竞赛 主页 山 


° TRAH.: IMDB 影评 得 分 估计 竞赛 任务 一 共 为 参赛 者 提供 了 4 份 不 同 的 数据 文 
件 , 其 中 包括 : 已 经 标 有 情感 倾向 的 训练 文件 labeledTrainData. tsv, 里面 有 
25000 条 影评 以 及 对 应 的 情感 倾向 标识 ; 待 测试 文件 testData. tsv, 同 样 也 另 有 
25000 条 电影 评论 ;还 有 一 份 无 标注 但 是 数据 量 更 大 的 影评 文件 unlabeldTrainData. 
tsv; 最 后 是 一 份 样 例文 件 sampleSubmission. csv 用 来 告知 参赛 者 最 终结 果 的 提 


交 格 式 。 


。 搭建 模型 : 接 下 来 分 别 采 用 Scikit-learn 中 的 朴素 贝 叶 斯 模型 以 及 隶属 于 集成 模 
型 的 梯度 提升 树 分 类 模型 ,对 电影 评论 进行 文本 情感 分 析 。 具 体 而 言 ,如 代码 78 
所 示 , 在 朴素 贝 叶 斯 模型 中 依然 使 用 “ 词 代 法 ”对 每 条 电影 评论 进行 特征 问 量 化 ， 
并 且 借 助 CountVectorizer 和 TfidfVectorizer; 另 一 方面 , 先 利 用 无 标注 影评 文件 
中 训练 词 回 量 , 然 后 将 每 条 电影 评论 中 所 有 词汇 的 平均 回 量 作 为 特征 训练 梯度 提 
升 树 分 类 模型 。 


(D https://www. kaggle. com/c/word2vec-nlp-tutorial. 
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| 代码 78. IMDB 影评 得 分 估计 竞赛 编码 示例 2 


>>># 导 入 pnis 用 于 读 取 和 写 入 数据 操作 ，。 
>>> import pandas as pd 


>>># 从 本 地 读 入 训练 与 测试 数据 集 。 
>>> train- pd.read csv('../Datasets/IMB/labeledirainData .tsv', delimiter- 'Nt') 
>>> test=pd.read_csv('../Datasets/IMDB/testData.tsv', delimiter- 'Nt') 


>>># 查 验 一 下 前 几 条 训练 数据 。 
>>> train.head() 


= == | 


>>># 查 验 一 下 前 几 条 测试 数据 。 
>>> test.head () 


e | 


>>> #M bs4 导 入 Beautifulsop 用 于 整洁 原始 文本 。 
>>> fram bs4 import BeautifulSoup 

>>># 导 人 和 人 正则 表达 式 工 具 包 。 

>>> import re 


D 部 分 参考 自 https://github. com/wendykan/DeepLearningMovies 
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>>> # M nltk.corpus 里 导入 停 用 词 列 表 。 
>>> fram nltk.corpus import stopwords 


>>># 定 义 review to text 函数 ,完成 对 原始 评论 的 三 项 数据 预 处 理 任 务 。 
>>> Gef review to text (review, remove stopwords): 

>>># 任务 1: 去 掉 html 标记 。 

>>> raw text= BeautifulSoup (review, 'html').get text () 

>>> HES 2. 去 掉 非 字母 字符 。 

>>> letters- re.sub(' [^a- zÆ Z] ', ' ', raw text) 

>>> words= 1letters.lower () .split () 

>>> HEF 3: WMR remove stcopwords 被 激活 , 则 进一步 去 掉 评 论 中 的 停 用 词 。 
>>> if remove stopwords: 

>>> Stop words- set (stopwords.words ('english!)) 

>>> words= [w for w in words if w not in stop words] 

>>># 返 回 每 条 评论 经 此 三 项 预 处 理 任 务 的 词汇 列表 。 

>>> return words 


>>># 分 别 对 原始 训练 和 测试 数据 集 进行 上 述 三 项 预 处 理 。 
>>>X train- [] 

>>> for review in train['review!']: 

>>> X train.append(' '.join(review to text (review, True))) 
2»»X test- [I 

>>> for review in test ['review']: 

>>> X test.append(' '.join(review to text (review, True))) 


>>> y train- train['sentiment'] 


>>># 导 人 文本 特性 抽取 器 Countvectorizer 5j Tfidfvectorizer, 

>>> frm sklearn.feature extraction.text import CountVectorizer, TfidfVectorizer 
>>># M Scikit- leam 中 导入 朴素 贝 叶 斯 模型 。 

>>> fram sklearn.naive bayes import MultinamialNB 

>>> GA Pipeline 用 于 方便 搭建 系统 流程 。 

>>> from skleam .pipeline import Pipeline 

>>># 导 人 Gridsearchcv 用 于 超 参 数组 合 的 网 格 搜索 。 

>>> fram sklearn.grid search import GridSearchcv 
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>>># 使 用 Pipeline 搭 建 两 组 使 用 朴素 贝 叶 斯 模型 的 分 类 器 ,区 别 在 于 分 别 使 用 comntvectorizer 
与 TfidPvectorizer 对 文本 特征 进行 抽取 。 | 
>>> pip count- Pipeline([ ("count vec', CountVectorizer (analyzer= 'word')), ('mrb', MiltinamialNB ()) ]) 
>>>pip tfidf —Pipeline([('tfidf vec', Tfidfvectorizer(analyzer- 'word')), ('nrb', MultinamialNB()) 1) 


>>># 分 别 配 置 用 于 模型 超 参数 搜索 的 组 合 。 
>>> params count- ('count vec_binary':[True, False], 'count vec ngram range':[(1, 1), (1, 2)], E 
mi alpha':[0.1, 1.0, 10.0]) : 
»»»params tfidf= ('tfidf vec binary': [True, False], 'tfidf vec ngram range':[(1, 1), (1, 2)],' 
mb alpha':[0.1, 1.0, 10.0]} : 


>>># 使 用 采用 4 折 交 叉 验证 的 方法 对 使 用 countvectorizer 的 朴素 贝 叶 斯 模型 进行 并 行 化 超 参数 
搜索 。 
>>> gs_count= GridsearchcvV (pip count, params count, cv= 4, n jdos-- 1, verbose- 

1) 

>>>gs count.fit(X train, y train) 


>>># 输 出 交叉 验证 中 最 佳 的 准确 性 得 分 以 及 超 参数 组 合 。 
>>>print gs count.best score _ 
>>> print gs count.best params _ 


Fitting 4 folds for each of 12 candidates, totalling 48 fits 

0.88128 

{mb alpha': 1.0, 'count vec CDinary': True, 'count vec ngram range': (1, 2)) 
[Parallel(n jdbs-- 1)]: Done 48 out of 48 | elapsed: 11.4min finished 


>>># 以 最 佳 的 超 参 数组 合 配置 模型 并 对 测试 数据 进行 预测 。 
>>> count: y predict-gs count.predict(X test) 


>>># 使 用 采用 4 折 交 叉 验证 的 方法 对 使 用 Tiafvectorizer 的 朴素 贝 叶 斯 模型 进行 并 行 化 超 参数 
搜索 。 : 
>>>qs tfidf=GridsarhV (pip tfidf, params tfidf, œ= 4, n jdos-- 1, verbose 1) 

»»»gs tfidf.fit(X train, y train) 

>>># 输 出 交叉 验证 中 最 佳 的 准确 性 得 分 以 及 超 参 数组 合 。 
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>>> print gs tfidf.best score 
>>> print gs tfidf.best params _ 


Fitting 4 folds for each of 12 candidates, totalling 48 fits 

0.88736 

('tfidf vec ngram range': (1, 2), 'tfidf vec binary’: True, mmb alpha': 0.1) 
[Parallel(n jdos-- 1)]: Done 48 out of 48 | elapsed: 12.6min finished 


>>># 以 最 佳 的 超 参数 组 合 配 置 模型 并 对 测试 数据 进行 预测 。 
>>> tfidf y predict-gs tfidf.predict(X test) 


>>> = f Fi pandas 对 需要 提交 的 数据 进行 格式 化 。 

>>> sumission count=pd.DataFrame({"id': test['id'], 'sentiment': count y predict}) 
>>> submission tfidf- pd.DataFrame(['id': test['id'], 'sentiment': tfidf y predict}) 
>>># 结 果 输 出 到 本 地 硬盘 。 

>>> submission count.to csv('../Datasets/IMDB/submission count.csv', index- 

False) 

>>> sumission tfidf.to csv('../Datasets/IMDB/submission tfidf.csv', index- 

False) 


>>> # JA KH i A TR io BE . : 
>>> unlabeled train- pd. read csv ('../Datasets/IMB/unlabeledTrainDeta. tsv', delimiter- '\t', : 
quoting- 3) | 


>>># FA nltk.data 
>>> import nltk.data 


>>> +E (EFA nltk 的 tokenizer 对 影评 中 的 英文 句子 进行 分 割 。 
>>> tokenizer- nltk.data.1load('tokenizers/cunkt/english.pickle') 


>>> +E AA review to _sentences 逐 条 对 影评 进行 分 句 。 
>>> def review to sentences (review, tokenizer): 

>>> raw sentences= tokenizer.tokenize (review.strip()) 
>>> sentences= [] 

>>> for raw sentence in raw sentences: 


>>> if len(raw sentence) > 0: 
>>> sentences .append (review to text(raw sentence, False)) 
>>> return sentences 


>>> corpore= [] 

>>># 准 备用 于 训练 词 向 量 的 数据 。 

>>> for review in unlabeled train['review']: 

>>> corpora += review to sentences (review.decode ('utf8'), tokenizer) 


>>> + Bu Bill #k is] [6] ht B 70 9 BSR. 
>>> mnm features- 300 
>>>min word count= 20 

>>> nm workers- 4 

>>> context= 10 


>>> downsampLing= le- 3 


>>> #M gensim.models 导入 word2vec 

>>> from gensim.models import word2vec 

>>># 开 始 词 向 量 模型 的 训练 。 

>>> mode1= word2vec.Word2Vec (corpora, workers- num workers, N 
Size-num features, min count-min word count, N 
window- context, sample- downsampLing) 


>>>model.init sims (replace= True) 


>>> model _name="../Datasets/IMDB/300features 20minwords 10context" 
>>># 可 以 将 词 向 量 模型 的 训练 结果 长 期 保存 于 本 地 硬盘 。 
>>> model .save (model name) 


>>> t¢HREACAWA B5) in] 8] dc PREX 。 
>>> from gensim.models import Word2Vec 
>>> model= Word2vec.load("../Datasets/IMDB/300features 20minwords 10context") 


>>> 探查 一 下 该 词 向 量 模型 的 训练 成 果 。 
>>>modjel.most. similar ("man") 
[ (a'waman', 0.6285387873649597) , 

(u'lad', 0.5965538620948792) , 
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(u'lady', 0.5933366417884827), 
(u'guy', 0.5359011888504028), 
(u'soldier', 0.5327591896057129), 
(u'priest', 0.5269299149513245), 
(u'chap', 0.523842453956604) , 
(u'person', 0.5220147371292114) , 
(u'monk' , 0.512861967086792) , 
(u'men', 0.5102326273918152) ] 


>>> inport numpy as np 


>>> # 定义 一 个 函数 使 用 词 向 量 产生 文本 特征 向 量 。 

>>> def makeFeatureVec (words, model, num features): 

>>> featureVec- np.zeros ( (mm features, ) ,dtype- "float32") 
>>> rwords= 0. 

>>> index2word set- set (model .index2word) 

>>> for word in words: 


>>> if word in index2word set: 
>>> nwords= nwords +1. 
>>> featureVec- np.add (featureVec,mode! [word] ) 


>>> featureVec- np.divide (featureVec, nwords) 
>>> return featureVec 


>>># 定 义 另 一 个 每 条 影评 转化 为 基于 词 向 量 的 特征 向 量 ( 平 均 词 向 量 ) 。 
>>> def getAvgFeatureVecs (reviews, model, num features): 

>>> counter- 0 

>>> TeviewreatuneVecs= np. zeros ( (len (reviews) ,nm features) ,dtype= "float z2") 


>>> for review in reviews: 
>>> TeviewreatureVecs [oounter]- mikeseaturevec (review, model, num features) 
>>> counter +=1 


>>> return reviewrFeatureVecs 


>>># 准 备 新 的 基于 词 向 量 表示 的 训练 和 测试 特征 向 量 。 
>>> clean train reviews= [] 
>>> for review in train["review"]: 


eee A 实战 篇 1173: 


>>> Clean train reviews.agpend (review to text (review, remove stopwords- The) ) 
>>> trainDataVecs- getAvgFeatureVecs (clean train reviews, model, num features) 
>>> Clean test reviews- [] 

>>> for review in test ["review"] : 

>>> Clean test reviews.append(review to text (review, remove stopwords- 
True)) 


>>> testDataVecs= getAvoFeatuneVecs (clean test reviews, model, num features) 


>>># 从 skleam.ensenble A GradientBoostingclassifier 模 型 进行 影评 情感 分 析 。 
>>> frm skleam.ensenble import GradientBoostingClassifier 


>>> # MA skleam.grid search A Gridsearchcv 用 于 超 参 数 的 网 格 搜索 。 
>>> fram skleam.grid search import GridSearchcv 


>>> goc= GradientBoostingClassifier () 

>>># 配 置 超 参数 的 搜索 组 合 。 

>>> Params goc- ('n estimators':[10, 100, 500], "leaming rate':[0.01, 0.1, 
1.0], 'max depth': [2, 3, 4]} 

>>> gs= GridSearchcv (goc, params qoc, C= 4, n jdos-- 1, verbose- 1) 

>>> gs.fit (trainDataVecs, y train) 

>>># 输 出 网 格 搜索 得 到 的 最 佳 性 能 以 及 最 优 超 参 数组 合 。 

>>>print gs.best score 


>>> print gs.best params _ 


Fitting 4 folds for each of 27 candidates, totalling 108 fits 


[Parallel(n jcbs=-1)]: Done 42 tasks | elapsed: 147.5min 
[Parallel(n jdos-- 1)]: Done 108 out of 108 | elapsed: 308.2min finished 
0.85692 


(n estimators': 500, "learning rate’: 0.1, "mex depth': 4) 
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>>># 使 用 超 参 数 调 优 之 后 的 梯度 上 升 树 模型 进行 预测 。 


>>> result- gs.predict (testDataVecs) 


>>> output- pd.DataFrame ( data= ("id":test["id"], "sentiment":result) ) 


>>> output.to csv( "../Datasets/IMB/siiomssion wav.csv", index- False, quoting= 3) 


提交 结果 : 最 后 ,按照 代码 78 所 设 定 的 输出 ,我 们 得 到 三 个 用 于 提交 预测 结果 的 


文件 ,分 别 是 : submission. count. csv, submission _ tfidf. csv 以 及 submission _ 
w2v. csv; 并 且 如 图 4-9 所 示 ,Kaggle 竞赛 平台 的 自动 测评 系统 给 出 了 上 述 3 个 提 
交 文 件 的 最 终 性 能 表现 。 其 中 使 用 TfidfVectorizer 搭配 朴素 贝 叶 斯 模型 取得 了 


最 好 的 预测 性 能 。 


Submission 


Post-Deadline: Mon, 15 Feb 2016 04:24:49 
Edit description 


Post-Deadline: Mon. 15 Feb 2016 04:24:21 
Edit description 


Post-Deadline: Mon, 15 Feb 2016 04:23:16 


图 4-9 IMDB 影评 得 分 预测 竞赛 的 提交 结果 


Files 


submission 
W2V.CSV 


submission_t 
fidf.csv 


submission c 
ount.csv 


“p44 mist 手写 体 数字 图 片 识别 


与 前 面 两 项 与 文本 分 析 相 关 的 苋 赛 任务 不 同 ,MNIST 手写 体 数 字 图 片 识别 苑 赛 主 
要 关注 对 数字 图 片 的 识别 。 并 且 在 数据 规模 和 图 片 分 辨 率 上 ,也 远 远 高 于 之 前 在 书 中 用 
到 的 Scikit-learn 中 集成 的 数据 。 曾 经 ,这 项 任务 是 那些 从 事 图 像 相关 的 机 器 学 习 人 研究 者 
的 经 典 入 门 级 课题 。 现 在 ,如 图 4-10 所 示 , 这 个 任务 数据 同样 也 被 发 布 到 Kaggle 上 , 供 


全 世界 的 兴趣 爱好 者 免费 下 载 分 析 与 学 习 。 


Public 


Score 


0.85468 


0.86508 


0.86372 


Private 


score 


0.85468 


0.86508 


0.86372 


Selected? 


。 TRAH.: 这 个 任务 所 提供 的 下 载 数据 非常 简单 清晰 ,只 有 两 个 文件 ,分 别 是 带 
有 数字 类 别 的 train. csv 与 测试 文件 test. csv。 每 个 手写 体 数字 图 像 在 这 两 份 文 
件 中 都 被 首尾 拼接 为 一 个 28X28= 二 784 维 的 像素 向 量 ,而且 每 个 像素 都 使 用 Lo, 


1] 之 间 的 灰 度 值 来 显示 手写 笔画 的 明暗 程度 ,如 图 4-11 所 示 。 


Host Competitions Datasets Scripts Jobs Community + Miao Fan Logout 
q 6 4 ç 4 0? 4 Ü | Knowledge * 924 teams 
3134724121 Digit Recognizer 
* a 
| ? 4 人 ; 5 \ a q u Wed 25 Jul 2012 Sat 31 Dec 2016 (11 months to go) 
Dashboard Competition Details > Getthe Data x Make a submission 
Home f 
- LJ . . . . 
ba a E Classify handwritten digits using the 
Make a submission Z 
TERTE a . famous MNIST data 
Description 
otf — Get started on this competition through Kaggle Scripts 
ule 
= The goal in this competition is to take an image of a handwritten single digit, and 
Forum a determine what that digit is. As the competition progresses, we will release tutorials 
p which explain different machine learning algorithms and help you to get started. 
cripts 


图 4-10 MNIST 手写 体 数字 图 片 识 别 竞赛 主页 由 


© 

© 

° 

° 

° 

° 

° 
coonb£-------&5oc 


4-11 MNIST 手写 体 数 字 图 片 像 素 表示 矩阵 ,图片 来 自 于 Tensorflow. org 


。 搭建 模型 : 接 下 来 ,我 们 将 采用 多 种 基于 skflow 工具 包 的 模型 完成 大 规模 手写 体 
数字 图 片 识别 的 任务 。 如 代码 79 所 示 ,这 些 模型 包括 : 线性 回归 需 、 全 连接 并 包 
含 三 个 隐 层 的 深度 神经 网 络 (DNN) 以 及 一 个 较为 复杂 但 是 性 能 强大 的 卷 积 神经 
网 络 CCNN ) 。 


(D https://www. kaggle. com/c/digit-recognizer 
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| 代码 79. MNIST 手写 体 数字 图 片 识别 竞赛 编码 示例 ? 


# 必 入 pandas 并 重 命名 为 pa, 
>>> import pandas as pd 


# 使 用 pandas 从 本 地 读 取 MNIST 手 写 体 数字 训练 图 片 集 。 
>>> train- pd.read csv('../Datasets/MNIST/train.csv") 

# 查 验 训练 样本 数量 为 42000 条 ;数据 维度 为 785, 

>>> train.shape 

(42000，785) 


# 使 用 pandas 从 本 地 读 取 MNIST 手 写 体 数字 测试 图 片 集 。 
>>> test= pd.read csv('../Datasets/MNIST/test .CSv') 

# 查 验 训练 样本 数量 为 28000 条 ;特征 维度 为 784。 

>>> test.shape 

(28000, 784) 


# 将 训练 集中 的 数据 特征 与 对 应 标记 分 离 。 
>>>y train train['label'] 
>>>X train- train.drop('label', 1) 


# 准 备 测试 特征 。 
>>>X test= test 


# 分 别 导 入 tensorflow 与 skflow。 
>>> import tensorflow as tf 
>>> import skflow 


# 使 用 skflow 中 已 经 封装 好 的 基于 tensorflow 搭 建 的 线性 分 类 器 TensorFlowLinearclas sifier 进 行 - 
学 习 预 测 。 : 
>>> classifier- skflow.TensorFlowLinearClassifier (n classes- 10, batch size- 

100, steps- 1000, learning rate- 0.01) 

>>> classifier.fit (X train, y train) 

Step #1, avg. loss: 150.07220 

Step #101, avg. loss: 21.13627 

Step # 201, avg. loss: 7.63181 


D 部 分 参考 自 https://github. com/tensorflow/skflow/blob/master/examples/mnist. py 
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Step # 301, avg. loss: 6.42357 

Step # 401, avg. loss: 6.15198 

Step # 501, epoch #1, avg. loss: 4.97943 
Step # 601, epoch # 1, avg. loss: 5.07608 
Step # 701, epoch #1, avg. loss: 5.24003 
Step # 801, epoch #1, avg. loss: 4.98451 
Step # 901, epoch 4 2, avg. loss: 4.63976 


>>> linear y predict- classifier.predict (X test) 


>>> linear sukmission- pd.Datakrame (('ImageId':range(1, 28001), "Label': linear y predict}) 
>>> linear sukmission.to csv('../Datasets/MNIST/linear submission.csv', index False) 


# 使 用 skflow 中 已 经 封装 好 的 基于 tensorflow 搭 建 的 全 连接 深度 神经 网 络 TensorrlowrNNClassifier - 
进行 学 习 预 测 。 
>>> classifier= skflow.TensorFlowINNClassifier(hidden units- [200, 50, 10], n classes- 10, steps- 
5000, learning rate- 0.01, batch size- 50) 

>>> classifier.fit(@ train, y train) 

Step #1, avg. loss: 46.02682 

Step # 501, avg. loss: 1.89034 

Step #1001, epoch #1, avg. loss: 0.90703 

Step #1501, epoch #1, avg. loss: 0.60030 

Step #2001, epoch #2, avg. loss: 0.37411 

Step #2501, epoch #2, avg. loss: 0.28791 

Step # 3001, epoch #3, avg. loss: 0.21417 

Step #3501, epoch #4, avg. loss: 0.20303 

Step # 4001, epoch #4, avg. loss: 0.15946 

Step # 4501, epoch #5, avg. loss: 0.14044 


>>>dnn_y predict= classifier.predict X test) 
>>> dnn_sulmission= pd. DataFrame (( 'Image1d' :range (1, 28001), "Label": dm y predict]) 


»»»dnn sumission.to csv('../Datasets/MNIST/dnn submission.csv', index- 
False) 
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# 使 用 Tensorflow 中 的 算 子 自行 搭建 更 为 复杂 的 卷 积 神经 网 络 , 并 使 用 skftlow 的 程序 接口 从 事 ， 
MIST 数 据 的 学 习 与 预测 。 : 
>>> def max pool 2x2(tensor in): 

>>> return tf.nn.max pool (tensor in, ksize- [1, 2, 2, 1], strides- [1, 2, 2, 1], padding- 'SAME!) 


>>> def conv model (X, y): 
>>> with tf.variable scope('conv layerl'): 


>>> h convl- skflow. ops. conv2d (X, n filters- 32, filter shape- [5, 5], bias- True, | 
activation- tf .nn.relu) | 
>>> h pooll-max pool 2x2(h convl) 
>>> with tf.variable soope('conv layer2'): 
>>> h conv2- skflow.cps.conv2d(h pooll, n filters- 64, filter shape- [5, 5], 
bias= True, activation tf.nn.relu) 
>>> h pool2-max pool 2x2(h conv2) 
>>> h poo12 flat-tf.reshape(h pool2, [-1, 7 * 7 * 64]) 


>>> h_fcl=skflow.ops.dnn(h_pool2 flat, [1024], activation- tf.nn.relu, keep prob= 0.5) 
>>> return skflow.models.logistic regression(h fcl, y) 


>>> classifier- skflow.TensorFlowEstimator(model fr- conv model, n classes- 
10, batch size- 100, steps= 20000, leaming rate- 0.001) 
>>> classifier.fit (X train, y train) 

Step #1, avg. loss: 123.86279 

Step # 2001, epoch # 4, avg. loss: 5.31864 

Step # 4001, epoch #9, avg. loss: 0.25143 

Step # 6001, epoch # 14, avg. loss: 0.09304 

Step # 8001, epoch #19, avg. loss: 0.03642 

Step #10001, epoch 4 23, avg. loss: 0.01281 

Step #12001, epoch 4 28, avg. loss: 0.00471 

Step #14001, epoch # 33, avg. loss: 0.00199 

Step #16001, epoch # 38, avg. loss: 0.00095 

Step #18001, epoch # 42, avg. loss: 0.00051 


TensorFlowEstimator(batch size- 100, continue training- False, early stopping_ 


第 4 章 ”实战 篇 : 179 : 


< function conv model at Ox10820dF50> , n classes- 10, num cores= 4, optimizer= 'SGD', steps= 20000, tf: 
master- '! tf randa seed- 42, verbose= 1) 


# 这 里 务必 请 读者 朋友 在 实战 中 注意 , 不 要 直接 将 所 有 测试 样本 交 给 模型 进行 预测 。 由 于 
# Tensorflow 会 同时 对 所 有 测试 样本 进行 矩阵 运算 ,一 次 对 28000 个 测试 图 片 进行 计算 会 消耗 

# 大 量 的 内 存 和 计算 资源 。 这 里 所 采取 的 是 逐 批 次 地 对 样本 进行 预测 ,最 后 拼接 全 部 预测 结果 
>>> corN y predict- [] 

>>> import numpy as rp 

>>> for i in rp.arange (100, 28001, 100): 

>>> conv y predict- np.append(conv y predict, classifier.predict (X test[i -100:i])) 

>>> conv_submission= pd.DataFrame(('ImageId':range (1, 28001), 'Iabel': np.int32(conv y predict) }) 

>>> conv_submission.to_csv('../Datasets/MNIST/conv_submission.csv', index- 
False) 


[ 
. 
D 
. 
. 
. 
* 


。 提交 结果 : 最 后 ,按照 代码 79 re BS ih PIAS Bl 3 个 用 于 提交 预测 结果 的 
文件 ,它们 分 别 是 : linear submission. csv, dnn submission. csv 以 及 conv _ 
submission. csv。 并 且 如 图 4-12 所 示 ,Kaggle 竞赛 平台 的 自动 测评 系统 给 出 了 上 
R 3 个 提交 文件 的 最 终 性 能 表现 。 其 中 卷 积 神经 网 络 (CNN) 模 型 取得 了 最 佳 的 
预测 性 能 ,具体 原因 请 读者 参考 纽约 大 学 教授 Yann LeCun 的 论文 [20] 以 及 他 
所 发 布 的 MNIST 研究 网 站 : http://yann. lecun. com/exdb/mnist/ 。 


Public 
Submission Files Score Selected? 


Mon, 15 Feb 2016 02:56:08 conv_submission.csv 0.97857 D 
Edit description 


Mon, 15 Feb 2016 02:55:11 dnn submission.csv 0.95000 
Edit description 


Mon, 15 Feb 2016 02:54:37 linear submission.csv 0.86100 Ü 
Edit description 


4-12. MNIST 手写 体 数字 图 片 识别 竞赛 的 提交 结果 


: 180 : 


Pyhom 机 器 学 习 及 实践 


Ww 45 章 末 小 结 


本 章 为 各 位 读者 提供 了 一 个 非常 出 色 的 实践 平台 Kaggle, 并 且 示 范 了 如 何在 这 个 平 
台 上 进行 机 器 学 习 的 实战 演练 。 一 般 而 言 , 对 于 像 Kaggle 这 样 的 在 线 数据 分 析 竞 赛 平 
台 ,都 遵照 下 载 数据 .搭建 模型 和 提交 结果 三 个 步 又。 并 且 多 数 情况 下 ,并 不 要 求 参 赛 者 
在 其 指定 的 平台 上 运行 源 代码 。 因 此 就 使 得 参赛 的 兴趣 爱好 者 可 以 更 加 灵活 地 搭建 预测 
模型 , 既 可 以 自行 编程 ,也 可 以 使 用 大 量 开 源 的 工具 包 。 

考虑 到 不 同 的 数据 形式 ,在 本 章 为 读者 挑选 了 三 个 在 Kaggle 平 台 上 的 竞赛 任务 ,分 
别 是 基于 结构 化 数据 .无 结构 文本 以 及 图 像 的 分 析 和 预测 问题 。 同 时 ,综合 使 用 了 许多 在 
本 书 中 提 到 的 经 典 以 及 最 新 的 机 器 学 习 模 型 .数据 处 理 技巧 和 性 能 提升 方法 。 期 待 各 位 
可 以 从 中 获 益 。 

最 后 , 祝 大 家 在 Kaggle 上 实战 愉快 ,同时 也 可 以 发 送 电邮 与 作者 讨论 实战 经 验 。 本 
章 所 有 数据 与 代码 示例 都 可 以 通过 此 链接 http://pan. baidu. com/s/IdENAUTr 以 及 
http://pan. baidu. com/s/1nvitu8T FÆ. 


2015 年 12 月 的 一 天 夜里 ,我 在 纽约 的 家 中 收 到 清华 大 学 李 超 老师 的 一 则 微 信 。 她 
说 她 本 人 非常 欣赏 我 在 网 络 上 发 表 的 数 个 有 关 如 何 使 用 Python 快速 搭建 机 器 学 习 系 统 
和 在 Kaggle 范 赛 平台 上 实战 的 帖子 ,并 且 和 希望 我 整理 出 一 本 书 出 版 。 

开始 我 还 很 证 异 ,因为 我 在 网 上 发 表 的 所 有 帖子 都 是 日 稼 学 习 工 作 的 经 验 之 谈 , 随 性 
之 作 ; 没 有 太 多 的 惕 辑 可 言 , 更 别 说 出 版 书籍 了。 当时 发 表 那 些 帖子 的 初 谚 ,只 是 不 布 望 
很 多 机 需 学 习 爱 好 者 重 蹈 我 在 实践 中 的 错误 ,也 和 希望 可 以 帮助 更 多 的 同学 快速 上 手 并 且 
体验 实战 中 乐趣 。 

但 是 , 当 我 接 下 整理 这 部 书稿 的 任务 之 后 ,忽然 感觉 自己 身上 的 担子 重 了 很 多 。 特 别 
是 在 得 知 这 本 书 很 有 可 能 被 选 为 通用 教材 之 后 ,立刻 发 现 之 前 所 有 我 发 布 在 互联 网 上 的 
帖子 几乎 都 不 可 用 。 原 因 是 ,作为 一 部 教材 就 更 要 设身处地 为 读者 着 想 ,尤其 是 这 本 教材 
的 目标 受众 不 仅仅 是 计算 机 专业 人 士 , 更 有 非 计算 机 专业 的 爱好 者 和 初 人 此 道 的 本 科 生 。 
所 以 ,我 几乎 重新 编制 了 整 部 书 的 提纲 ,参考 网 上 的 帖子 重 写 了 第 2 章 和 第 3 章 , 并 且 考 
虑 到 不 同 层次 读者 的 需求 ,增加 了 第 1 章节 的 Python 编程 基础 和 第 4 E Kaggle EFEX 
战 等 相关 内 容 。 

尽管 时 间 仓 促 , 作 者 也 力求 全 书 条 理 清晰 、 深 入 浅 出 ;但 也 有 因 能 力 所 限 、 力 所 不 建 之 
处 ,还 望 各 位 朋友 批评 指正 ,及 时 勘误 ;也 欢迎 大 家 发 邮件 到 fanmiao. cslt. thu@ gmail. 
com 参与 讨论 。 

最 后 ,感谢 您 购 疝 (Python 机 器 学 习 及 实践 》, 并 借 由 作者 本 人 时 第 所 引用 斯 蒂 夫 ， 
乔布斯 的 一 句 名 言 ,作为 本 书 的 收尾 : OR AGL. Me sr B (Stay Hungry, Stay Foolish), 


希望 在 今后 的 人 生 道路 上 能 与 读者 朋友 们 共勉 。 
4K 
Te d 


写 于 中 国 北京 清华 园 
2016 年 5 月 1 日 


[1] Turing. Alan M. Computing machinery and intelligence. Mind (1950): 433-460. 

[2] Mitchell. Tom M. Machine learning. 1997. Burr Ridge: IL: McGraw Hill 45 (1997). 

[3] Mark Lutz, Learning Python, Fifth Edition, O’ Reilly Media. 

[4] MEE. MU. Python 编程 基础 . 北京 : 清华 大 学 出 版 社 ,2003. 

[5] Raul Garreta, Guillermo Moncecchi. Learning scikit-learn: Machine Learning in Python. Packt 
publishing. 

[6] Pedregosa, F., Varoquaux, G. , Gramfort, A. , Michel, V. , Thirion, B. , Grisel, O. , Blondel, 
M. ; Prettenhofer: P. . Weiss. R. » Dubourg», V. and Vanderplas, J.. Scikitlearn: Machine 
learning in Python. The Journal of Machine Learning Research, 12, pp. 2825-2830(2011). 

[7] Fisher.R. A. The use of multiple measurements in taxonomic problems Annual Eugenics, 7, Part 
H , 179-188 (1936); also in Contributions to Mathematical Statistics (John Wiley, NY, 1950). 

[8] Gavin Hackeling. Mastering Machine Learning with scikit-learn. 2014 Packt Publishing. 

[9] Bird, Steven, Edward Loper and Ewan Klein (2009), Natural Language Processing with Python. 
O’ Reilly Media Inc. 

[10] Silver, David, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den 

Driessche, Julian Schrittwieser et al. Mastering the game of Go with deep neural networks and 
tree search. Nature 529, no. 7587 (2016): 484-489. 
[11] Wirth, Niklaus. Algorithms-- data structures— programs. Prentice Hall PTR, 1978. 
[12] Chen, Tianqi, and Carlos Guestrin. XGBoost: Reliable Large-scale Tree Boosting System. 
[13] Bengio. Yoshua, Holger Schwenk, Jean-Sébastien Senécal, Fréderic Morin, and Jean-Luc 
Gauvain. Neural probabilistic language models. In Innovations in Machine Learning, pp. 137- 
186. Springer Berlin Heidelberg, 2006. 

[14] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Ef ficient Estimation of Word 
Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013. 

[15] Dean, Jeffrey. and Sanjay Ghemawat. MapReduce: simplified data processing on large 
clusters. Communications of the ACM 51, no. 1 (2008): 107-113. 

[16] Rosenblatt, Frank. The perceptron: a probabilistic model for information storage and 
organization in the brain. Psychological review 65.6 (1958): 386. 

[17] Marvin Minsky, Seymour A. Papert, Perceptrons, MIT express (1987) https://mitpress. mit. 


[18] 


[19] 


[20] 


[21] 


edu/books/perceptrons. 

Rumelhart. David E., Geoffrey E. Hinton: and Ronald J. Williams. Learning internal 
representations by error propagation. No. ICS-8506. CALIFORNIA UNIV SAN DIEGO LA 
JOLLA INST FOR COGNITIVE SCIENCE, 1985. 

Williams, DE Rumelhart GE Hinton RJ. and G. E. Hinton. Learning representations by back- 
propagating errors. Nature 323 (1986): 533-536. 

LeCun, Yann, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradientbased learning 
applied to document recognition. Proceedings of the IEEE 86, no. 11 (1998): 2278-2324. 
Michael Nielsen. Neural Networks and Deep Learning. Free Online Book: http:// 


neuralnetworksanddeeplearning. com/index. html 


: 183 : 


rr 
š: w 
— 
= 


AH den K 


0 2 4 5 8 10 12 2 0 2 4 6 8 10 12 
肿块 厚度 肿块 厚度 


1-2 良 / 恶 性 乳腺 瘤 肿瘤 测试 集 数据 分 布 1-3 ”随机 参数 下 的 二 类 分 类 器 (黄色 直线 ) 


Ro 


4 


SHE 


iiai 肿块 厚度 
1-4 使 用 10 条 训练 样本 得 到 的 二 类 分 类 器 (绿色 直线 ) 1-5 使 用 所 有 训练 样本 得 到 的 二 类 分 类 器 ( 蓝 色 直线 ) 


e C:\Python27\python.exe 


Python 2.7.18 Cdefault, May 23 2015, 89:44:88» [MSC 


n32 


Type "help". "copyright", "credits" or "license" for more information. 


图 1-7 Python 解释 器 Windows 运行 界面 


You must be logged on as m Administrator to make most of these changes 
Performance 
Visual effects, processor scheduling, memory usage, and vitua memory 


User Profiles Environment Variables 
Deskiop setlings related to your logon 


User variables for God 


Value 
Startup and Recovery E 


System startup. system failure. and debugging infornetion C: Program Files\ntel \WFibiny C: Frog... d 
"AUSERPROFILE? M poData \Local Temp 
%4USERPROFILE%:\ApoData\LoceliTemp — 7 


[ we. ][ edt. || Delete ] 


Value E 


d C: ICTCXLOCALT ity Win; CCT eX LO... E 
— TM COM; EXE; .BAT;. CIVD; VES; VBE; JE; see. 


Edit System Vanable X Sp aa = “° upaqa 
s - Intelé4 Family 5 Model 42 Stepping 7, G... 一 | 


— prom a 


Variable value: sions for PHP; Seat C: \CTEX User 


[ o ][ cw | 


Computer name, domain, and workgroup sethngs 
See also 


KOAA Combes Computer name: God-PC 


od. D 


Lë Python 2.7.10 Shell 


Ele Edit Shell Debug Options Window Hep — —— — — >  — | — | 
Python 2.7.10 (default, May 23 2015, 09:44:00) [MSC v.1500 64 bit (AMD64)] on wi 
n32 

Type "copyright", "credits" or "license()" for more information. 

>>> print 'Hello Everyone!' 

Hello Everyone! 

>>> 


1-9 Windows 操作 系统 下 Python IDLE 运行 界面 


a Ju pyte [ Chapter_1.1 cast Checkpomt 33 minutes ago (autosaved) 
File Edit View Insert Cell Kernel Help 


Bot sx mlM + *| 中国 C Code 


import pandas as pd 


df train = pd.read csv('../Datasets/Breast-Cancer/breast-cancer-train.csv') 


df test = pd.read csv('../Datasets/Breast-Cancer/breast-cancer-test,.csv") 


df test negative = df test.loc[df test['Type'] == G][['Clump Thickness’, ‘Cell 
df test positive ~ df test.loc[df test['Type'] == 1][['Clump Thickness’, ‘Cell 


import matplotlib.pyplot as plt 


plt.scatter(df test negative['Clump Thickness'],df test negative['Cell Size'], marker = 'o', s-200, c-'red') 
plt.scatter(df test positive['Clump Thickness'],df test positive['Cell Size'], marker -= 'x', s-150, c-'black') 
plt.xlabel('Clump Thickness‘) 

plt.ylabel('Cell Size') 

plt.shou() 


C: \Anaconda2\lib\site-packages\matplotlib\collections.py:598; FutureWarning: elementwise comparison failed; returning scalar ins 
tead, but in the future will perform elementwise comparison 
if self. edgecolors -- str('face'): 


图 1-10 Python 解释 器 界面 


[Python 2.7.10 (default, Oct 23 2015, 18:05:06) 
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin 
[Type "help", "copyright", "credits" or "license" for more information. 


~ & Total  * Received & Xferd Average Speed Time Time Time Current ~~ 
[ Dload Upload Total Spent Left Speed 
[100 1476k 100 1476k 0 _ _@ _1535k___ @ 一 :--:-- 一 :一 :-- —:--:-- 1534k _ 
| 172-16-239-4:Miao Fan jieleizhu$ sudo python get-pip.py ) 


WARNING: Improper use of the sudo command could lead to data loss 
or the deletion of important system files. Please double-check your 
[typing when using sudo. Type "man sudo" for more information. 


To proceed, enter your password, or type Ctrl-C to abort. 


Password: 
The directory '/Users/jieleizhu/Library/Caches/pip/http' or its parent directory is not « 
wner of that directory. If executing pip with sudo, you may want sudo's -H flag. 
The directory '/Users/jieleizhu/Library/Caches/pip' or its parent directory is not owned 
[ that directory. If executing pip with sudo, you may want sudo's -H flag. 
Collecting pip 
Downloading pip-8.0.0-py2.py3-none-any.whl (1.2MB) 
100% | es | 1.246 369kB/s 
Collecting wheel 
Downloading wheel-®.26.0-py2.py3-none-any.whl (63kB) 
100s | sC Ó 6.0MB/s 
Installing collected packages: pip, wheel 
Successfully installed pip-8.0.0 wheel-0.26.0 


图 1-13 Mac OS 下 pip 安装 步骤 


Supervised Learning Model 


2-1 监督 学 习 基 本 架构 和 流程 


True positive rate (TPR), 


25 包括 支持 向 量 机 分 类 器 在 内 的 多 种 分 类 直线 2-6 K 近 邻 算 法 展示 样 例 


scikit-learn 
algorithm cheat-sheet 


2-8 Scikit-learn 工具 包 模 型 使 用 建议 (图 片 来 源 于 http: //scikit-learn. org/ 
stable/tutorial/machine_learning_map/index. html) 


Input Space Feature Space 


图 2-9 利用 核 函 数 $ 将 线性 不 可 分 的 低 维 输入 ,映射 到 
高 维 可 分 的 新 特征 空间 ,图 片 摘 自 于 互联 网 
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图 2-10 K-means 算法 和 迭代 过 程 示例 ,图片 摘自 于 互联 网 


10 Instances K = 2, silhouette coefficient= 0.471 
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10 K = 3, silhouette coefficient= 0.722 10 K = 4, silhouette coefficient= 0.644 
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2-11 I FH Se Bp RRF rS [8] 25 # E BJ K-means 聚 类 结果 示例 


Ba. 
( CA >D 


GLOBAL OPTIMUM 


LOCAL OPTIMA 


El 2-13 K-means 算法 和 迭 全 局 最 优 解 与 局 部 最 优 解 的 比较 ,图 片 摘 自 于 互联 网 
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2-17 手写 体 数字 图 像 经 PCA 压缩 后 的 二 维 空 间 分 布 
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图 3-2 线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情 况 
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图 3-3 2 次 多 项 式 回归 与 线性 回归 模型 在 比萨 训练 样本 上 《图 3-4 4 次 多 项 式 回归 与 其 他 模型 在 比萨 训练 样本 上 的 拟 
的 拟 合 情况 比较 合 情 况 比较 


Cell Size 
Cell Size 
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图 3-8 使 用 Tensorflow 自 定义 一 个 线性 分 类 器 在 “ 良 / 恶 性 图 3-9 使 用 Scikit-learn 的 LogisticRegression 模型 训练 
乳腺 癌 肿 瘤 ” 数 据 上 学 习 到 的 二 分 类 直线 得 到 的 二 分 类 直线 


AND NAND OR XOR 
| < I l 
0 0 0 0 
0 | 0 I 0 l 0 l 
图 3-13 ”使 用 感知 机 区 分 并 {(AND) ,与 非 (NAND)、 或 (OR) 以 及 异 或 
(XOR) 运 算 所 产生 的 数据 ,图片 摘自 [8] 


